PhD W/M – IA / Deep Learning & Computational Social Sciences

The Complex Systems Institute of Paris is proposing a PhD position in AI / Deep Learning & Computational Social Sciences

Institutions
– Establishment of affiliation: CNRS
– Host laboratory: Institut des Systèmes Complexes de Paris Île-de-France (ISC-PIF), Paris, France http://iscpif.fr
– Partner laboratory: Information Processing and Systems Teams (ETIS)

Encadrants :

  • Directeur de thèse : Chavalarias David, Directeur de Recherche CNRS, HDR, sciences sociales computationnelles et analyse de données
  • Co-directeur de thèse : Hedi Tabia, Maître de conférences / Associate Professor at the ENSEA, machine learning and IA
  • Référents techniques : Maziyar Panahi, ingénieur CNRS (Masses de données et machine learning), Boris Borzic, ingénieur CNRS (image processing, machine learning)

Institutions

Thèse financée par le programme 80 PRIME du CNRS.

Résumé

Un consensus commence à émerger sur le fait que le problème des fausses informations n’est qu’une partie d’un problème beaucoup plus vaste qu’est la désinformation. En effet, on assite à de nombreuses campagnes de diffusion massive de messages sur les réseaux sociaux qui, bien que ne comportant pas nécessairement une fausse information, ont pour objectif de porter préjudice à des personnes ou des institutions en changeant la perception de leurs lecteurs.

Ce projet de thèse part de l’hypothèse que la réussite des campagnes de manipulation d’opinion repose en grande partie sur leur capacité à masquer leur origine. Au-delà de savoir si une information est vraie ou fausse, ce projet aura pour objectif de développer des méthodes rendrant manifeste pour les citoyens, si possible en temps réel, l’origine et la progression des campagnes d’influence afin d’en atténuer les effets. Par origine, nous entendu la qualification d’un groupe de personnes, d’une méthode de diffusion de l’information, d’une catégorie d’objectifs (information, désinformation, influence, débat, socialité, etc.).

Ce projet combinera pour cela une approche multi-modale des contenus numériques (textes, images, vidéos, acteurs), s’appuyant sur les derniers développements de l’intelligence artificielle, avec des analyses des réseaux socio-sémantiques.

Description du sujet de thèse

Le rapport commandé par le parlement européen Final report of the High Level Expert Group on Fake News and Online Disinformation du 5 décembre 2018 élargit la question des fakes news au problème plus général et plus complexe de la désinformation en ligne. Il confirme en cela les conclusion du rapport conjoint du CAPS et de l’IRSEM d’août 2018 sur les manipulations de l’information.

De fait, si les premières réactions aux conséquences manifestes de manipulation d’opinion en ligne se sont concentrées sur les fausses informations, avec comme première démarche la mise en place de sites de vérification d’information (« fact checking »), un consensus commence à émerger sur le fait que le problème est beaucoup plus vaste. Il doit inclure la diffusion par certains acteurs et de manière massive de messages qui, bien que ne mentionnant pas nécessairement un fait vérifiable, n’en délivrent pas moins un message dont l’objectif est de porter atteinte à des personnes ou des institutions via des messages à connotation négative ou dénigrante.

Par exemple, pendant l’entre-deux de la présidentielle de 2017, plusieurs dizaines de milliers de messages anti-Macron ont été publiés sur Twitter. Ceux-ci reprennaient les codes des communautés Fillon et Mélenchon mais n’en étaient pas moins rédigés par des personnes extérieures à la France, comme par exemple des militants de l’Alt-right américaine (Chavalarias 2018a). Ces tweets avaient clairement pour buts de faire croire aux électeurs français que l’opposition à Macron, en tant qu’alternative à Le Pen, était plus forte qu’elle ne l’était réellement.

Ce projet de thèse par de l’hypothèse que la réussite des campagnes de manipulation d’opinion repose en grande partie sur leur capacité à masquer leur origine. Au-delà de savoir si une information est vraie ou fausse, ce sur quoi se concentrent la plupart des projets de fact-checking comme HoaxBuster, Hoaxkiller, Decodex ou CrossCheck, ce projet aura pour objectif de développer des méthodes rendant manifeste pour les citoyens, si possible en temps réel, l’origine des campagnes d’influence et leur progression dans la noosphère numérique. Cette prise de conscience de “qui est en train d’essayer de me faire croire que X” est une étape très importante pour atténuer les effets de ces campagnes d’influence.

Cette proposition de thèse part d’un constat et d’un pari :

  • une très grande partie des campagnes d’influence d’opinion s’appuient sur la diffusion de contenus comportant des images et vidéos. Cette forme de communication est privilégiée pour son impact émotionnel susceptible d’influencer fortement, bien que sur une courte durée, les comportements,
  • au-delà de savoir si une information est vraie ou fausse, un des leviers à privilégier pour atténuer les effets de la désinformation est de rendre manifeste l’origine des campagnes d’influence : qui est en train de parler à qui ?

L’enjeu est donc de concevoir des modalités de contextualisation multi-modales de l’information circulant sur le web (texte, image, vidéo) afin d’offrir aux internautes des éléments supplémentaires pour juger de la pertinence, la qualité ou la véracité d’un contenu sur le cyberspace.

Cette proposition de projet réunit deux laboratoires chacun reconnu internationalement dans ces domaines :

  • L’Institut des systèmes complexes de Paris Île-de-France (ISC-PIF) est spécialisé dans l’analyse des réseaux socio-sémantiques du web et a étudié notamment la circulation des fausses informations dans la Twittersphere politique. Il pilote actuellement le projet Politoscope qui est devenu une référence internationale dans le domaine de l’analyse des contenus politiques des réseaux sociaux (plus de 80 mentions dans la presse internationale, les radios nationales et les sites d’informations sur 2017-2018),
  • ETIS, est spécialisé dans les moteurs de recherche sémantiques d’analyse de similarité par contenu des images fixes et animées (vidéos) en temps réel.

Cette thèse s’appuiera sur une analyse cross-modale (sociale, textuelle et sémantique, sonore, image et vidéo)

Nous croiserons ces différentes modalités sur des sources d’information issues des réseaux socio-numériques, fournies par deux projets :

  1. Le politoscope (ISC-PIF, http://politoscope.org) qui analyse en continue les tweets politiques français (plus de 140M de Tweets collectés depuis août 2016) ainsi que les productions des medias. Le politoscope permet de reconstruire l’évolution du paysage politique quotidiennement et d’analyser la diffusion de contenus dans cet espace structuré. Une étude publiée dans la revue PLOS ONE a notamment analysé les motifs de diffusion des fausses informations,
  2. #Idéo2017 (ETIS) (http://ideo2017.ensea.fr/) moteur de recherche sémantique de tweets politiques par analyses statistiques et critères linguistiques, corrélé à des outils de visualisation des données pour faire ressortir facilement les thématiques, les champs lexicaux ou encore les thèmes forts des Twittos.

Ce projet s’appuie sur 2 plateformes de l’ISC-PIF : 

  1. MULTIVAC (multivac.iscpif.fr) plateforme pour l’analyse des masses de données qui offre des APIs REST temps réel, un environnement pour le calcul intensif en données et CPU ainsi qu’un environnement de programmation en ligne sous spark/scala (deep learning, NLP, etc.),
  2. GARGANTEXT (gargantext.org) Plateforme de cartagrophie et d’exploration interactive des grands corpus non structurés

Et 2 plateformes ETIS :

  1. Social RETIN (http://patrimeph.ensea.fr/retin) : Moteur de recherche sur les réseaux sociaux qui combine la recherche textuelle et la recherche par contenu de l’image ;
  2. RETIN Vidéo : Recherche par similarité de Vidéo

Afin de mener ce projet, la/le doctorant.e mènera des recherches à l’interface entre la reconstruction de paysages sociaux et l’analyse multi-modale de contenus du web s’appuyant sur des méthodes de deep learning.

Côté analyse de réseaux sociaux, il/elle se posera la question de la représentation de la “géographie” des communautés de débats d’idées sur le web et de la manière de caractériser ces communautés. Côté analyse des contenus du web, il/elle s’intéressera dans un premier temps aux différentes modalités de communication présentes sur les réseaux sociaux et le web contributif (ex. YouTube) et proposera des algorithmes permettant l’extraction de caractéristiques issues de chaque modalité. Dans un second temps, il/elle s’intéressera à croiser ces modalités pour caractériser les différents contenus (émotionnel, fausse information, factuel, etc.) et les contextes dans lesquels ils sont diffusés (ex. campagne coordonnée provenant d’une partie du cyberespace vs. intérêt spontané et distribué).

Impact sociétal
Les résultats de cette recherche permettront de mieux comprendre les tentatives d’influence de l’opinion par le biais des médias et réseaux sociaux. Ils seront entre autres utilisés dans les plateformes ouvertes de l’ISC-PIF, telles que l’application mobile politoscope, afin de fournir au milieu de la recherche et aux citoyens en général des outils pour mieux qualifier les différents types d’information qui circulent sur le web.

Contexte de travail

L’Institut des Systèmes Complexes de Paris Île-de-France est une unité du Centre National de la Recherche Scientifique, l’un des plus grands et prestigieux organismes de recherche français. L’ISC-PIF est en partenariat avec plus d’une douzaine d’autres universités et organismes de recherche français, ainsi qu’avec la ville de Paris et l’Île-de-France.

L’ISC-PIF est un lieu dédié au développement de recherches innovantes et interdisciplinaires sur les systèmes complexes à la croisée de la modélisation, du calcul haute performance et des mégadonnées. Il catalyse, depuis 2005, l’émergence de pratiques communes et interdisciplinaires, facilitant l’accès aux compétences, aux méthodologies et à la mise en commun de moyens pour la recherche. Outre les personnels CNRS qui pilotent et animent la recherche et développement, l’ISC-PIF a un programme de résidences scientifiques qui permet à des chercheurs d’établissements partenaires de mener des projets en bénéficiant des plateformes et services de l’ISC-PIF.

La/le doctorant.e bénéficiera pour la partie machine learning IA d’un environnement de calcul exceptionnel incluant grille de calcul, cloud computing (avec surcouche Spark/Hadoop), serveurs multicoeurs (1To Ram) et Cluster GPU.

Informations complémentaires

Le.a candidat.e devra être titulaire d’un diplôme d’ingénieur et/ou d’un master en informatique, avoir de solides connaissances en programmation (ex. spark, scala, python, programmation fonctionnelle, etc.), en apprentissage machine (deep learning ou tensor flow) ou en analyses et visualisation de données. Elle/il devra être intéressé.e par le domaine des sciences sociales computationnelles et de l’analyse des réseaux sociaux.

Le poste nécessite de bonnes aptitudes de communication orale et écrite en anglais pour présenter aux congrès et rédiger des articles dans des revues scientifiques. Nous recherchons une jeune chercheuse ou un jeune chercheur qui saura s’impliquer dans son projet, curieux.se, ayant une certaine autonomie et une forte motivation pour développer des compétences dans l’analyse à grande échelle des données du web et des réseaux sociaux associés. De plus, le.a candidat.e devra être apte à travailler en équipe sur des projets pluridisciplinaires.

Les candidatures devront inclure un CV détaillé ; au moins deux références (personnes susceptibles d’être contactées) ; une lettre de motivation d’une page ; un résumé d’une page du mémoire de master ; les notes de Master 1 ou 2 ou d’école d’ingénieur).
La date limite pour l’envoi des candidatures est le 1/07/2019.