EPIQUE

Une analyse comparative et une compréhension quantitative de l’évolution des sciences.

Le développement de nouveaux types d’activités socio-économiques sur les médias numériques a conduit à la constitution d’énormes corpus électroniques qui sont l’une des composantes majeures de la révolution des Big Data dans les sciences humaines et sociales.

Ces corpus sont à la fois un reflet et, peut-être même plus important, une partie cruciale des processus omniprésents de création de connaissances distribuées qui se produisent constamment dans de nombreux contextes : communautés scientifiques, réseaux de brevets et de technologies, plateformes collaboratives en ligne, blogs, wikis, etc.

En parallèle, nous constatons le rôle important des mathématiques et de l’informatique pour l’analyse des Big Data, que ce soit par le développement de plates-formes de calcul et de traitement de données à haute performance ou l’élaboration de nouvelles méthodes pour effectuer l’exploration de textes ou l’analyse de réseaux complexes et multiplex.

La combinaison de ces deux grandes tendances ouvre la voie à l’analyse à grande échelle de grands corpus numériques, qui comporte des défis scientifiques importants dans plusieurs domaines, notamment la linguistique, le traitement distribué, l’analyse de réseaux complexes et la visualisation d’informations.

La proposition EPIQUE se concentre sur les corpus scientifiques et vise à relever plusieurs défis liés à l’analyse comparative et la compréhension quantitative de l’évolution des sciences dans leur ensemble.

Si une partie des recherches proposées tirera spécifiquement parti de la structure et du contenu des documents scientifiques (lien de citation, co-auteurs, mots clés, expressions significatives, etc.), la plupart d’entre elles seront menées de manière à être aussi génériques que possible, avec des applications à d’autres types de corpus tels que ceux mentionnés ci-dessus (web, brevets, journaux, etc.).

Comprendre l’évolution de la science

La reconstruction de la structure et de l’évolution de la science selon une approche ascendante à partir de la production scientifique est de la plus haute importance pour un large éventail d’acteurs :

  • les épistémologues et les historiens des sciences, qui ont besoin de tester leurs théories avec des données, en particulier sur la manière dont les champs se croisent et dont la nouveauté émerge,
  • les scientifiques qui veulent se positionner dans leur domaine, comprendre les tenants et aboutissants et trouver des domaines à fort potentiel de découverte,
  • les décideurs politiques qui veulent repérer les domaines émergents, favoriser l’innovation et obtenir des indicateurs clés pour les aider dans les processus de décision,
  • l’industrie, qui doit trouver sa voie dans la production scientifique et évaluer le potentiel d’innovation et de transfert technologique,
  • les bibliothécaires qui doivent proposer des classifications de documents qui respectent non seulement la hiérarchie des sujets scientifiques mais aussi l’évolution des idées.

Contexte

La proposition EPIQUE s’inscrit dans le cadre de l’initiative nationale française de recherche interdisciplinaire du CNRS MASTODONS (Grandes masses de données scientifiques) ARESOS. Son point de départ est le travail de David Chavalarias (CAMS-CNRS,ISC) et Jean-Philippe Cointet (INRA-SenS,ISC) sur l’analyse conceptuelle des corpus documentaires évolutifs (blog, forum, collections bibliographiques, archives documentaires) par la construction d’arbres phylomématiques représentant l’évolution temporelle de sujets déduits d’un ensemble d’archives documentaires couvrant une large période (la notion d’arbre phylomématique est inspirée de la notion d’arbre phylogénétique représentant les caractéristiques et l’évolution des espèces et issu des gènes de leurs membres).

Objectifs

Notre premier objectif est de construire une carte sémantique globale de l’évolution de la science en appliquant des modèles scientométriques appropriés sur le corpus WoS comprenant plus de 600K termes et les publications scientifiques des 20 dernières années. Cet objectif sera le moteur général du projet et représentera les principaux critères d’expérimentation et de validation pour les autres objectifs.

Le deuxième objectif découle directement du précédent. La taille du corpus WoS représente un défi important qui nécessite le développement de nouvelles solutions exploitant les récents cadres parallèles de traitement des données comme Hadoop, Spark, Hadoop, Pregel, Terrier.

Les partenaires du projet ont déjà obtenu quelques premiers résultats prometteurs en utilisant Spark [Laj2014, Gui2014] pour construire des arbres phylomématiques sur le corpus WoS. Notre objectif est d’aller plus loin dans la définition de structures de données et d’algorithmes évolutifs appropriés pour analyser et combiner les contenus textuels et sémantiques et les métadonnées.

  • Equipe

    Quentin LOBBÉ,
    Postdoctorant, Telecom-Paritech

    David CHAVALARIAS
    Directeur de recherche CNRS/CAMS/EHESS
    Directeur de l’ISC-PIF, UPS3611 CNRS