Importer des données CSV dans Gargantext

Il est possible d’utiliser la puissance de calcul et de traitement de Gargantext pour analyser un corpus autre que ceux proposés dans la liste des bases de données interrogeables.

Il suffit de convertir la feuille de calcul sous le modèle d’un export de corpus Gargantext qui se présente en 7 colonnes principales (peu importe l’ordre) :

  • la colonne pour le titre du document : elle doit avoir title pour intitulé,
  • la colonne dédiée au contenu textuel à traiter (par exemple pour le champ résumé d’un article scientifique) : elle doit avoir abstract pour intitulé,
  • la colonne pour l’année du document (mettre l’année en cours si pas d’infos) : elle doit avoir publication_year pour intitulé,
  • la colonne pour décrire les auteurs : elle doit avoir authors pour intitulé,
  • la colonne pour définir la source (pour d’où vient l’information) : elle doit avoir source pour intitulé,
  • la colonne pour décrire le mois de la publication (si pas indiqué, mettre le chiffre ‘1’) : elle doit avoir publication_month pour intitulé,
  • la colonne pour décrire le jour de la publication (si pas indiqué, mettre le chiffre ‘1’) : elle doit avoir publication_day pour intitulé.

Formatage du fichier

Evidemment, l’objectif est de s’adapter à ce formalisme pour analyser au mieux les données dans Gargantext.

Nous avons dans l’exemple suivant la liste des thèses financées par l’Ademe depuis 2005, ouvertement accessible sur le site thesenet.ademe.fr.

Le fichier se présente sous la forme suivante, qui ne ressemble pas forcément à une publication scientifique :

Ce qui nous intéresse, c’est d’analyser les champs, où se trouve le plus de texte, afin de créer les cartographies thématiques des centres d’intérêts scientifiques de l’Ademe sur la période 2005 à 2017.

Nous avons cherché les correspondances pour faire aligner le tableau d’origine vers le formalisme CSV de Gargantext, voici ce que nous avons retenu :

  1. la colonne “Titre de la thèse” => colonne title
  2. la colonne “Mot clés” => colonne abstract
  3. la colonne “Promo” => colonne publication_year
  4. la colonne “Laboratoire d’accueil” => colonne authors
  5. la colonne “Etablissement cofinanceur” => colonne source
  6. pour les deux dernières publication_month et publication_day puisqu’il n’y a pas d’information à ce sujet, mettre 1

Cela donne un tableau sans fioriture sous ce formalisme :

Note

Il faut penser à nettoyer les textes pour enlever les sauts de ligne, en utilisant Rechercher/Remplacer avec l’expression régulière \n à remplacer par un espace.

Il faut ensuite exporter le fichier avec un jeu de caractère UTF8 avec la tabulation (ou la virgule) comme séparateur de champ (“delimited” sous Excel).

Dans GoogleSheet, il suffit de télécharger le fichier sous le format csv avec la virgule comme séparateur, le jeu de caractère UTF8 est utilisé par défaut dans GoogleSheet.

Import dans Gargantext

Dans Gargantext, lors de l’ajout d’un corpus, il faut :

  • sélectionner le type CSV dans la liste des types de corpus,
  • chercher l’archive .zip à analyser
  • donner un nom à la recherche

Si les champs texte du tableau ont bien été épurés (caractères bizarres, saut de ligne, délimiteur de textes, etc…), normalement, l’import se fait correctement.

Note

Il est préconisé pour tout import de fichier dans Gargantext, de compresser le ou les fichiers (si il y a plusieurs tableaux à analyser) dans une archive, afin d’économiser la bande passante de l’ISCPIF.

Analyse dans Gargantext

Dans notre cas d’étude sur les thèses Ademe, dans la mesure où certains critères d’analyse de Gargantext ont été “détournés”, par rapport à l’alignement effectué entre le tableau d’origine et le tableau CSV cible, les interprétations des onglets et des histogrammes qui en résultent seront à adapter.

Ainsi dans la mesure où il manquait des informations sur les dates précises des thèse, à part l’année, les histogrammes de l’onglet [Documents] ne sont pas pertinents. Par contre, nous avons dans le tableau la liste des thèses présentés par leur année d’obtention, le titre de la thèse et dans le champ source, l’organisme co-financeur :

On peut ainsi voir dans l’onglet [Source], quels sont les entreprises et organismes co-financeurs qui sont les plus récurrents dans l’obtention des bourses Ademe :

Même si le champ n’est pas rempli pour 85 thèses, on peut voir que le CEA travaille beaucoup avec l’Ademe dans plusieurs domaines scientifiques (50 thèses co-financées).

Nous avons donc utilisé la fonction d’analyse des sources de Gargantext à des fins détournées, mais dont la logique s’applique finalement pour donner des informations intéressantes et exploitables.

L’onglet [Analytics] donne des informations pertinentes sur le champ Year seulement, puisque nous avions les bonnes indications sur l’année de la thèse. On peut voir dans l’histogramme ci-après le nombre de thèses par année, avec un financement en déclin.

Enfin les deux derniers onglets [Graphs] et [Terms] sont tous deux pertinents, car bien que n’ayant pas eu le champ “résumé” des thèses à analyser, nous avons pu utiliser les champs “mots-clés” et titre” qui nous permettent d’effectuer des analyses pertinentes.

Les thématiques principales des sujets de thèses co-financées par l’Ademe sur plus de 10 ans, apparaissent clairement (169 termes extraits), ainsi que les domaines d’expertises scientifiques :