Text Mining – Introduction

Loading Map....

Date/Time
Date(s) - 02/06/2016
2:00 pm - 5:00 pm

Location
ISC-PIF

Categories


jediHeader

Le text mining c’est la fouille de textes en langue naturelle, qui traite des séquences de chaînes de caractères à la recherche d’informations structurables.

Historiquement, le text mining est un domaine hybride né de la rencontre de plusieurs problématiques d’ingénierie comme le repérage de termes, le classement par thèmes, le classement d’opinions, l’extraction de faits dans des actualités, etc. Ces tâches mettent en jeu des observables liés à différents niveaux du fonctionnement de la langue naturelle1 et peuvent être mathématisées de façon diverses2. Au final le text mining s’inscrit donc dans un paysage théorique très riche mais disparate. Nous nous contenterons de fournir un premier aperçu : présenter les notions les plus transversales et quelques méthodes incontournables.

Concrètement, durant les 3 heures, nous tenterons de programmer en python une chaîne de travail basique qui extrait des termes intéressants d’un corpus et les regroupe par famille sémantique.

Les techniques abordées seront :

  • récupération d’un corpus par une API externe et gestion des formats
  • chaîne de pré-traitement fondamentale (segmentation, étiquetage morpho-syntaxique, lemmatisation)
  • approche distributionnelle pour le clustering des termes (regroupement des semblables)
  • report des classes obtenues comme annotations dans les textes source

1 Les niveaux couramment d’analyse distingués sont: construction d’unités (morphologie), mise en relation d’unités (syntaxe), contraintes extérieures dans la construction des énoncés (pragmatique), modèles du vocabulaire dans ses usages communs (lexicologie) et ses prescriptions spécialisées (terminologie). Chacun de ces niveaux d’analyse peut être envisagé à travers l’héritage de théories linguistiques en partie opposées (Chomsky, Harris, Gross, Mel’čuk)

2 Les modélisations formelles puisent principalement dans les outils mathématiques de la logique, des grammaires formelles, de l’analyse statistique et de la théorie des graphes.Ces modèles peuvent faire l’objet d’apprentissage automatique pour créer des prédicteurs ou classifieurs, mais nous nous en servirons surtout de façon exploratoire.

Prérequis:

L’atelier concernera la programmation de scripts python 3. Il faut avoir des notions de bases de ce langage. Les exercices utiliseront aussi les librairies nltk, scikit-learn et flask, que vous devriez installer préalablement via pip3 ou le gestionnaire de paquets de votre système.

outils système basiques

sudo apt install python3-pip

sudo apt install ipython3

librairie python nltk (pour les prétraitements linguistiques)

pip3 install --user nltkpython3 -m nltk.downloader punkt

python3 -m nltk.downloader maxent_treebank_pos_tagger

librairie scikit-learn (pour le clustering) et ses dépendances

pip3 install --user numpypip3 install --user scipy

pip3 install --user scikit-learn

librairie flask (serveur web pour l’affichage)

pip3 install --user flask

JEDI registration

JEDI registration

If your affiliation is not already in the suggestions, just write yours.
Please enter your email. It will used to broadcast any changes regarding this event.
Sending