Gargantext Tutorial

Mode d’emploi pour analyser un corpus avec Gargantext

Auteurs : Cécile Méadel et Alexandre Delanoë.

Source : http://controverses.ensmp.fr/mode-demploi-pour-analyser-un-corpus-avec-gargantext

GargantextuelVous avez un corpus d’articles (au moins 200) constitué à partir de Scopus, Web of Science (format html) ou Europresse (format plaintext).

Ce corpus est sous la forme d’un fichier comprenant le plus souvent plusieurs documents (eux mêmes composés par des ensembles d’articles).  Vous devez compresser le fichier sous format zip.

Pour compresser vos fichiers.

  • Sur Mac: utiliser la commande « compresser » (fichier dans finder);
  • sur Windows: Clic droit puis Ajouter à l’archive (zip);
  • sur Linux utiliser la ligne de commande « zip Corpus.zip *html »

Vous allez sur la page de Gargantext. Vous vous connectez (log in) Et cliquez dans test Gargantext.

Intégration du corpus dans Gargantext

Puis add a project (ce nom servira pour tous les traitements que vous ferez sur un sujet donné, avec éventuellement des corpus provenant de bases différentes). Vous lui donnez un nom. Vous cliquez sur le nom du projet. Et vous faites add a corpus.

http://docs.delanoe.org/AddProject.png

Vous devez donner à nouveau un nom (qui vous permettra par exemple d’identifier la base). Vous choisissez le format:

  • RIS pour Scopus et WOS
  • Europresse français ou anglais pour Europresse!

http://docs.delanoe.org/ScopusRisImportFleche.png

Puis, une fois que vous avez choisi le fichier,  add this corpus. Le traitement démarre aussitôt. Cela peut prendre quelques minutes, en fonction de la taille du corpus (moins d’un quart d’heure). Rechargez votre page pour voir si le traitement est fini.

http://docs.delanoe.org/VueCorpus.png

Cliquez sur le nom du corpus.

 Analyse chronologique générale

Vous obtenez un histogramme de la répartition chronologique des articles.

gargan1

L’histogramme bleu vous permet de sélectionner une période donnée et de faire un zoom dont les résultats s’affichent dans l’histogramme vert.

La commande Read documents vous permet d’afficher les articles de la période sélectionnée (ou de l’ensemble des articles d’ailleurs). Cela peut vous permettre par exemple de voir rapidement quels sont les titres des articles d’une année particulière.

Cette commande Read documents vous permet également de repérer les doublons et de les éliminer. Les doublons sont signalés par des croix rouges devant les références multiples. En cliquant sur la croix, vous supprimez le doublon. Vous ne pouvez pas le faire pour toute la période d’un coup, il faut découper en tranches temporelles. Gargantext met à jour automatiquement le corpus purgé de ses doublons.

A ce stade de développement de Gargantext (encore expérimental), deux possibilités de traitement sont disponibles:

  • Advanced Charts qui permet de faire des analyses chronologiques en croisant des critères ;
  • Graph qui permet de visualiser la proximité entre les différents termes ;
  • Plus tard, Matrix permettra d’explorer ces co-présences dans une matrice.

Analyse chronologique croisée

La commande Advanced Charts va  permettre de mettre en évidence la place d’un élément (un auteur, un thème, une source…) dans le flot temporel de vos données. Elle vous permet de suivre et de comparer dans le temps l’apparition de différents termes, ou la part respective de différents journaux, en filtrant par périodes si nécessaire. (Utilisez pour cela « Metadata » dans les filtres).

Un exemple: on cherche à voir la place de quatre quotidiens dans une controverse:

http://docs.delanoe.org/AdvancedGraphDatasets.png

 Attention: pour les sources (noms des journaux), les majuscules comptent, donc écrire Figaro et pas figaro.

On obtient le schéma suivant. Le bleu est l’ensemble des documents. Les autres couleurs indiquent les publications de chaque journal. Cela permet de mettre en évidence le rôle prépondérant de Sud Ouest.

http://docs.delanoe.org/AdvancedGraphGraph.png

Vous avez le choix entre une présentation par histogramme ou courbe, une échelle linéaire ou logarithmique, etc. Voir sous le schéma.

http://docs.delanoe.org/GraphStack.png

Le schéma peut être exporté en faisant une copie d’écran. (N’oubliez pas de préciser la légende).

Visualisation thématique

Vous cliquez maintenant sur Graph (en bas à droite).

Le graphe indique les clusters (une patate de liens denses…) de mots reliés par des liens de co-occurrence.  Vous pouvez en faire une analyse générale.

http://docs.delanoe.org/GraphInsecticideGaucho-1.png

Vous pouvez également vous concentrer sur un cluster particulier et analyser les articles spécifiques de ce cluster (en bas à droite).