Service de Text-Mining proposé par l'Office International de l'Eau

Le service web de text mining de l’OIEau utilise le ©Thésaurus Eau, un vocabulaire spécialisé dans le domaine de l'eau et élaboré au sein du réseau de compétences documentaires. Ce service permet d’analyser un ou plusieurs documents (un corpus de textes ou de données bibliographiques, libres de droit - par exemple des rapports et des documents publics français et des sources de données gratuites). Les outils intelligents utilisés catégorisent les termes en fonction des sujets abordés. Il propose par la même occasion d’établir les relations existantes entre ces différents termes.

En parallèle, cette fouille de textes permet la réalisation de graphes : l’internaute peut visualiser l’interprétation de l’analyse sous forme d’histogramme, de camembert ou de nuage de mots. Comment ça marche ?

Notre service repose sur l'implémentation de plusieurs technologies open-source :

jQuery et le plugin jQuery File Upload, pour l'import des fichiers
Apache Tika pour l'extraction des textes des fichiers
PyWPS pour la gestion des entrées et des sorties du webservice de text-mining
R et le module Text Mining pour la partie fouille de texte
D3JS et HighCharts pour la mise en forme des résultats

Tester le service

Vous pouvez tester le service de text-mining en téléchargeant un ou plusieurs fichiers contenant du texte (.txt, .pdf, .doc, .xsl, .odt, .ppt...)