
Service de Text-Mining proposé par l'Office International de l'Eau
Le service web de text mining de l’OIEau utilise le ©Thésaurus Eau, un vocabulaire spécialisé dans le domaine de l'eau et élaboré au sein du réseau de compétences documentaires. Ce service permet d’analyser un ou plusieurs documents (un corpus de textes ou de données bibliographiques, libres de droit - par exemple des rapports et des documents publics français et des sources de données gratuites). Les outils intelligents utilisés catégorisent les termes en fonction des sujets abordés. Il propose par la même occasion d’établir les relations existantes entre ces différents termes.
En parallèle, cette fouille de textes permet la réalisation de graphes : l’internaute peut visualiser l’interprétation de l’analyse sous forme d’histogramme, de camembert ou de nuage de mots. Comment ça marche ?
Comment ça marche ?
Notre service repose sur l'implémentation de plusieurs technologies open-source :
- jQuery et le plugin jQuery File Upload, pour l'import des fichiers
- Apache Tika pour l'extraction des textes des fichiers
- PyWPS pour la gestion des entrées et des sorties du webservice de text-mining
- R et le module Text Mining pour la partie fouille de texte
- D3JS et HighCharts pour la mise en forme des résultats
Le calcul des thèmes utilise le ©Thésaurus Eau
Tester le service
Vous pouvez tester le service de text-mining en téléchargeant un ou plusieurs fichiers contenant du texte (.txt, .pdf, .doc, .xsl, .odt, .ppt...)