École d’été CNRS 2020 Nouvelles méthodes pour la fouille et l’analyse des corpus textuels

Map Unavailable

Date/Time
Date(s) - 29/06/2020 - 04/07/2020
12:00 am

Categories No Categories


L’UMR Thalim en collaboration avec l’UMR LATTICE et la TGIR HUMANUM du 28 juin au 4 juillet 2020 dans le cadre de la villa Cynthia à Fréjus une école thématique CNRS intitulée “Nouvelles méthodes pour la fouille et l’analyse des corpus textuels ».

Cette école, pilotée par Alexandre Gefen (DR CNRS, UMR THALIM), est ouverte sur candidature aux chercheurs, enseignants chercheurs, ingénieur d’étude et de recherche, doctorants, post-doctorants, CNRS ou universitaires, français ou étrangers, intéressés par les problématiques de la recherche d’information, la classification, l’annotation et l’extraction d’information propres aux Humanités numériques.

Détails pratiques :

Arrivée à Fréjus le dimanche 28 juin 2020 après-midi, retour le vendredi 4 juillet après 16h00.

La Villa Cynthia : https://www.caes.cnrs.fr/sejours/la-villa-clythia/

 

Nouvelles méthodes pour la fouille et l’analyse des corpus textuels

Ces dernières années ont vu la production de corpus textuels de plus en plus considérables pour les SHS, des exemples paradigmatiques étant donnés par la BNF, qui a rendu interrogeable par API le gigantesque fond documentaire de Gallica, ou encore par les corpus de tweets ou les bases d’archives patrimoniales. En même temps, grâce en particulier à l’intelligence artificielle (machine learning, deep learning), des méthodes originales de fouille textuelle (text mining) et des outils logiciels accessibles ont modifié les problématiques principales que sont la recherche d’information, la classification des textes, l’annotation linguistique et sémantique et l’extraction d’information. Topic modeling, classification automatique par apprentissage machine, analyse sémantique par vecteur de mots, annotation automatique et découverte d’entités nommées, ont ouvert de nouvelles perspectives en rendant scientifiquement possible des analyses statistiques quantificatives ou mixtes (quali-quanti) de textes considérés comme des données de la culture contemporaine ou de l’histoire culturelle : c’est la naissance d’une nouvelle discipline baptisée en anglais culturonomic ou cultural analytics. L’analyse des données textuelles en masse est donc désormais possible par de multiples moyens, de plateformes comme Gargantex à des outils individuels comme le logiciel R et ses bibliothèques sans parler d’instruments comme Google Ngram Viewer. Ce sont les nouvelles perspectives pour la recherche ouvertes par ces solutions et ces corpus ayant émergé ces dernières années que vous voudrions explorer.

D’un point de vue concret, le projet de cette école est de faire connaitre et de diffuser les pratiques et les outils formant l’état de l’art en matière d’analyse des données textuelles, en équipant les ingénieurs et chercheurs d’une expertise des solutions disponibles autant qu’un savoir-faire pratique et en favorisant les échanges entre équipes ayant déjà expérimenté de tels projets par l’analyse de cas types. A terme, l’accès aux données massives offre en effet des perspectives déterminantes pour de nombreuses disciplines : de l’analyse socio-politique des échanges sur les réseaux sociaux au distant reading en littérature, de l’histoire culturelle à la l’histoire économique, de la linguistique à la philologie, les procédures contemporaines d’analyse des big data textuels sont une nouvelle frontière pour de nombreuses disciplines en permettant le déploiement d’approches empiriques et expérimentales innovantes. De tels méthodes favorisent à la fois le dialogue avec les sciences de l’information et l’interdisciplinarité interne aux SHS et cette école d’été visera à la disséminer dans les laboratoires et les communautés.

Les quatre problématiques principales que sont la recherche d’information, la classification, l’annotation et l’extraction d’information structureront le programme. 

1. Recherche d’information : moteurs de recherche plein texte, lemmatisation, recherche vectorielle, ontologie et thesaurus automatisé.

2. Classification : par apprentissage supervisé, par apprentissage non supervisé ; mesure de distance et de similarité entre textes.

3. Annotation : métadonnées et enjeux de l’encodage en TEI, annotation linguistique et outils d’étiquetage POS ; repérage des entités nommées.

4. Extraction d’information et analyse quantitative : analyse sémantique par vecteurs de mot, topic modeling, sentiment analysis, stylométrie.

L’école proposera quatre ateliers de formation  :

1. Nicolas Turenne (chercheur à l’INRA, Laboratoire Interdisciplinaire Sciences Innovation Sociétés) : le langage R pour la fouille textuelle.

2. Clément Plancq (Ingénieur d’Études au LaTTiCe) : l’analyse sémantique par les vecteurs de mots.

3. Solen Quinion (Maître de conférences à l’Université de Nantes) : la classification de documents

4. Carmen Brando (ingénieure de recherche en sciences de l’information au CRH) : l’annotation automatique d’entités nommées

Elle sera complétée par 5 conférences :

1. Jean-Philippe Cointet : « Techniques avancées de fouille sémantique »

2. Elena Pierazzo : « Où en est la norme TEI ? »

3. Laurent Capelli, IR Humanum : « Les outils d’Humanum pour la fouille textuelle »

4. Thierry Poibeau, DR LATTICE, « L’usage de l’IA pour le Natural Text Processing »

5. Pierre-Carl Langlais, post-doc au GRIPIC : « Comment classer les documents de Gallica ? »

0 replies

Leave a Reply

Want to join the discussion?
Feel free to contribute!

Leave a Reply

Your email address will not be published. Required fields are marked *