Reconstruction of the socio-semantic dynamics of political activist Twitter networks

Reconstruction of the socio-semantic dynamics of political activist Twitter networks
Method and application to the 2017 French Presidential election

Read the paper on PLOS ONE (open access)

Consulter l’article sur le site du journal PLOS ONE.

Traduction française

Traduction française de l’article du l’archive scientifique HAL a été déposée le jour de la publication. Elle sera prochainement disponible, le temps de validation par l’équipe de HAL. En attendant, voici le PDF.

Online Plateform

Online interactive visualization of political debates during French presidential election implementing the method proposed in this article.

Tweets IDs used for this study

Tweets Ids collected by the Politoscope Project (http://politoscope.org) through the ISC-PIF Multivac Platform (Maziyar Panahi, http://multivac.iscpif.fr) from Aug 1st, 2016 until May 8, 2017 (French Presidential Elections) (2018-03-08)

Cite this dataset : Chavalarias, David; Panahi, Maziyar; Gaumont, Noé, 2018, “Politoscope data : tweets Ids for the 2017 French Presidential Elections”, https://doi.org/10.7910/DVN/6739SP, Harvard Dataverse, V1

Graphs and other data derived from the paper

These data set contains intermediary results processed on the tweets dataset (for example text-mining results), additional data from the candidates’ programs and anonymized graphs of the political landscape.

Cite this dataset : Gaumont, Noé; Panahi, Maziyar; Chavalarias, David, 2018, “Data for : Reconstruction of the socio-semantic dynamics of political activist Twitter networks – Method and application to the 2017 French presidential election”, https://doi.org/10.7910/DVN/AOGUIA, Harvard Dataverse

English

Français

Citation : Gaumont, N., Panahi, M., Chavalarias, D., 2018. Reconstruction of the socio-semantic dynamics of political activist Twitter networks—Method and application to the 2017 French presidential election. PLOS ONE 13, e0201879. https://doi.org/10.1371/journal.pone.0201879

Abstract

Background Digital spaces, and in particular social networking sites, are becoming increasingly present and influential in the functioning of our democracies. In this paper, we propose an integrated methodology for the data collection, the reconstruction, the analysis and the visualization of the development of a country’s political landscape from Twitter data.

Method The proposed method relies solely on the interactions between Twitter accounts and is independent of the characteristics of the shared contents such as the language of the tweets. We validate our methodology on a case study on the 2017 French presidential election (60 million Twitter exchanges between more than 2.4 million users) via two independent methods: the comparison between our automated political categorization and a human categorization based on the evaluation of a sample of 5000 profiles descriptions ; the correspondence between the reconfigurations detected in the reconstructed political landscape and key political events reported in the media. This latter validation demonstrated the ability of our approach to accurately reflect the reconfigurations at play in the off-line political scene.

Results We built on this reconstruction to give insights into the opinion dynamics and the reconfigurations of political communities at play during a presidential election. First, we propose a quantitative description and analysis of the political engagement of members of political communities. Second, we analyze the impact of political communities on information diffusion and in particular on their role in the fake news phenomena. We measure a differential \textit{echo chamber} effect on the different types of political news (fake news, debunks, standard news) caused by the community structure and emphasize the importance of addressing the meso-structures of political networks in understanding the fake news phenomena.

Conclusions Giving access to an intermediate level, between sociological surveys in the field and large statistical studies (such as those conducted by national or international organizations) we demonstrate that social networks data make it possible to qualify and quantify the activity of political communities in a multi-polar political environment ; as well as their temporal evolution and reconfiguration, their structure, their alliance strategies and their semantic particularities during a presidential campaign through the analysis of their digital traces. We conclude this paper with a comment on the political and ethical implications of the use of social networks data in politics. We stress the importance of developing social macroscopes that will enable citizens to better understand how they collectively make society and propose as example the Politoscope, a macroscope that delivers some of our results in an interactive way.

Citation :

Gaumont, N., Panahi, M., Chavalarias, D., 2018. Reconstruction of the socio-semantic dynamics of political activist Twitter networks—Method and application to the 2017 French presidential election. PLOS ONE 13, e0201879. https://doi.org/10.1371/journal.pone.0201879

Résumé

Contexte Les espaces numériques, et en particulier les sites de réseaux sociaux, sont de plus en plus présents et influents dans le fonctionnement de nos démocraties. Dans cet article, nous proposons une méthodologie intégrée pour la collecte de données, la reconstruction, l’analyse et la visualisation du développement du paysage politique d’un pays à partir des données de Twitter.

Methode La méthode proposée repose uniquement sur les interactions entre les comptes Twitter et est indépendante des caractéristiques des contenus partagés tels que la langue des tweets. Nous validons notre méthodologie sur une étude de cas portant sur l’élection présidentielle française de 2017 (60 millions d’échanges Twitter entre plus de 2,4 millions d’utilisateurs) via deux méthodes indépendantes : la comparaison entre notre catégorisation politique automatisée et une catégorisation humaine basée sur l’évaluation d’un échantillon de 5000 descriptions de profils ; et la correspondance entre les reconfigurations détectées dans le paysage politique reconstruit et les événements politiques clés rapportés dans les médias. Cette dernière validation démontre la capacité de notre approche à refléter avec précision les reconfigurations de la scène politique d’un pays à partir des données des réseaux sociaux.

Résultats Nous nous sommes appuyés sur cette reconstruction pour donner un aperçu des dynamiques d’opinion et de la reconfiguration des communautés politiques qui sont en jeu lors d’une élection présidentielle. Tout d’abord, nous proposons une description et une analyse quantitative de l’engagement politique des membres des communautés politiques. Ensuite, nous analysons l’impact des communautés politiques sur la diffusion de l’information et en particulier sur leur rôle dans le phénomène des fausses nouvelles. Nous mesurons un effet différentiel de chambre d’écho (echo chamber) sur les différents types de nouvelles politiques (fausses nouvelles, démentis, nouvelles standards) causées par la structure communautaire. Nous soulignons l’importance de prendre en compte les méso-structures des réseaux politiques pour comprendre les phénomènes de type “fausses nouvelles” (fake news).

Conclusions En donnant accès à un niveau intermédiaire, entre les enquêtes sociologiques de terrain et les grandes études statistiques (telles que celles menées par des organisations nationales ou internationales), nous démontrons que les données des réseaux sociaux permettent de qualifier et de quantifier l’activité des communautés politiques dans un environnement politique multipolaire, ainsi que leur évolution et reconfiguration temporelle, leur structure, leurs stratégies d’alliance et leurs particularités sémantiques au cours d’une campagne présidentielle à travers l’analyse de leurs traces numériques. Nous concluons ce document par un commentaire sur les implications politiques et éthiques de l’utilisation des données des réseaux sociaux en politique. Nous insistons sur l’importance de développer des macroscopes sociaux qui permettront aux citoyens de mieux comprendre la manière dont collectivement ils font société. Nous proposons comme exemple le \textit{Politoscope}, un macroscope qui restitue certains de nos résultats d’une manière interactive.

Mots-clés : opinion dynamics, political activism, elections, socio-semantic networks, networks dynamics, Twitter.

Questions fréquentes, incompréhensions et présentations biaisées de nos résultats sur le web et dans la presse

Parle-t-on de "fake news" ou de fausses informations même si ceux qui diffusent les messages sont des comptes individuels et non des comptes média ?

Oui, pour les réseaux sociaux, c’est un terme générique qui recouvre toute information qui semble se référer à un fait avéré mais qui est fausse. Il est souvent difficile de dire d’où est partie cette information même si certains media se sont fait une spécialité d’en diffuser.

Par souci de rigueur méthodologique, nous nous sommes restreint à une définition précise de ce qu’est une information et une liste de fausses informations qui avaient fait l’objet de rectificatifs rigoureux et publics indépendamment de notre étude. C’est la raison pour laquelle nous avons retenu la base de données de fausses nouvelles établie par les Décodeurs du journal Le Monde.

La liste des fausses informations des Décodeurs est-elle fiable et objective ?

Pour la partie de l’article portant sur les fausses informations, nous aurions aimé inclure dans l’étude des listes de fausses informations produites par d’autres tendances politiques que celle représentée par le journal Le Monde. Nous n’en avons pas trouvé qui soient aussi bien structurées pour la réutilisation.

Nous avons donc choisi d’utiliser la partie du travail des décodeurs qui nous semblait la plus objective et la plus fiable : une liste de pages web dont ils avaient objectivement démontré, preuves à l’appui, qu’elles propageaient de fausses informations. C’est le cas par exemple de l’information publiée le 11 avril 2017 suivant laquelle Fillon aurait été blanchi par la justice mais les média n’en parleraient pas. Cette informations a été réfutée par les Décodeurs et d’autres sites comme CrossCheck et d’ailleurs, Fillon a été mis en examen peu de temps après.

Même si Le Monde est un journal décrit comme d’orientation politique “centre gauche”, la qualification de fausse information des données produites par les Décodeurs n’est pas contestable dans la mesure où elles ont fait l’objet de justifications rigoureuses. L’observation que les communautés Fillon et Le Pen ont relayé des fausses informations est donc un fait.

En revanche, il n’y a aucune prétention à l’exhaustivité dans la partie de l’article sur les fausses informations, rien n’exclut que bien d’autres fausses informations aient pu circuler, y compris dans d’autres communautés, on ne peut simplement pas l’affirmer à partir de notre étude.

Ce que notre recherche permet de dire en revanche, même sur l’échantillon considéré, est que les fausses informations polarisent l’espace politique numérique beaucoup plus que toute autre type de nouvelles, ce qui en soit n’est pas bon pour le débats d’idées lors que l’on a à choisir collectivement la personne la plus à même de diriger le pays.

Y a-t-il eu moins de 0.01% de "fake news" dans les Tweets politiques ?

Non, on ne peut pas affirmer qu’il y a eu moins de 0.01% de “fake news” dans les Tweets politiques (comme ont pu le dire par exemple Russia Today ou fdeSouche).

Nous avons observé que sur Twitter, si on se restreint aux informations identifiées comme fausses par les Décodeurs du Monde (ce qui est loin d’être exhaustif), il y a moins de 0.0081% de Tweets qui contiennent une référence à ces informations. C’est moins de 1 sur 10.000.

Cela veut-il dire qu’il y a très peu de “fake news” sur Twitter ? : on ne peut pas l’affirmer
Cela veut-il dire que les “fake news” ou la désinformation sur Twitter n’ont pas eu d’impact ? : on ne peut pas l’affirmer

Pourquoi ?
Il est vrai que moins de 0.01% de fake news repérées sur une base comme celle du Decodex est un chiffre faible étant donné le volume de Tweets collectés. Il est cependant à relativiser de plusieurs manières :

ce n’est que Twitter et la situation peut être très différente sur d’autres média
on ne parle que des fausses informations référencées comme telles par les Décodeurs du Monde et il y a à cela deux limites : ce n’est pas exhaustif car la capacité du Monde est limitée (on a essayé de trouver d’autres media ayant fait cet exercice, nous n’en avons pas trouvé, à part Libération, sous une forme bien moins structurée). On parle de fausses informations et non de tweets visant à manipuler l’opinion, qui constituent un ensemble beaucoup plus large. Par exemple les tweets pointant vers les MacronLeaks en invitant à consulter cette archive (implicitement, MacronLeak suggère qu’il y a quelques scandale caché) ou ceux ayant un contenu émotionnel négatif fort à propos d’un homme politique ne sont pas considérés comme des fausses informations alors que, comme nous l’avons montré pendant la présidentielle, il y en a eu des centaines de milliers avec un impact probable sur l’opinion.

Fillon et Le Pen ont sont-ils les auteurs de la majorité des fake news ?

Les communautés politiques ont été relativement imperméables aux fakes news du type identifié par le Decodex, sauf deux, les communautés qui les ont largement relayée : celle autour de Fillon pour plus de la moitié de toutes les “fake news” identifiées et celle autour de Le Pen, pour plus de 22%.

Pour interpréter ce résultat, il faut bien comprendre ce que recouvre le terme communautés : ce sont des comptes Twitter qui s’échangent des contenus politiques de manières préférentielle, ils sont dans le même “bain informationnel”, lisent et produisent des contenus qui vont en moyenne dans le même sens politiquement parlant.

Le constat que les fausses informations issues de la liste du Decodex se concentrent sur les communautés Fillon et Le Pen a au moins trois explications possibles qui toutes soulèvent un problème pour la sérénité des débats en ligne :

la diffusion de fausse information était une marque d’appartenance à un groupe,
c’était une stratégie électorale assumée,
c’était la manifestation d’une tentative d’influence de l’opinion de ces communautés par des personnes qui y étaient extérieures (c’est à dire des comptes qui n’ont rien à voir avec ces communautés mais qui, en ligne, essaient d’échanger des messages avec elles pour les influencer).

L’article ne départage pas entre ces trois explications possibles car nous estimons que c’est une question qui doit être résolue par des journalistes et non des chercheurs.

Il faut également souligner qu’aucun des principaux candidats à la présidentielle ou noms mentionnés sur nos cartes n’a relayé dans un tweet des fausses nouvelles listées par les Décodeurs, même si certains en ont notoirement diffusé par ailleurs (pour ne mentionner que les leaders des deux communautés ayant relayé le plus de fausses nouvelles dans notre échantillon : Fillon soutenant que les média auraient annoncé la mort de sa femme ou Marine Le Pen affirmant que les logements sociaux sont prioritairement occupés par l’immigration)

On peut dire que les communautés en ligne FIllon et Le Pen ont été les principales pourvoyeuses de fake news sur l’échantillon étudié, mais on ne peut pas affirmer que les partis associés en étaient à l’origine ou que d’autres partis n’en ont pas diffusé, ce serait extrapoler au-delà des résultats de l’étude, bien que cela reste une possibilité.

Ces 5.000 fausses nouvelles ont-elles eu un impact?

C’est très difficile à dire, mais vu le faible nombre et la faible pénétration au sein des communautés et de la “mer”, on peut penser que l’impact fut faible sur le résultat de l’élection pour cet échantillon de fausses nouvelles. Par contre, notre étude démontre que les fausses nouvelles politiques polarisent plus de débat que les autres types de nouvelles et en ce sens, les fausses nouvelles ont certainement accentué les clivages et les divisions au sein de l’opinion publique (par exemple, elles ont probablement contribué à l’échec du front républicain) et si le phénomène s’amplifie, cela pourrait avoir un impact sur les résultats d’élections futures.

On a par ailleurs pu observer des tentatives de manipulation de l’opinion via la diffusion massive (plusieurs dizaines de milliers) de tweets négatifs envers un candidats qui reprenaient les codes et hashtags d’une communauté particulière alors qu’ils n’étaient pas émis par cette communauté. On peut démontrer (dans un article à venir, dont première analyse a été publiée peu de jours avant le second tour) que cette tentative venait de l’étranger. C’est pour nous la menace la plus importante concernant l’expression démocratique et non biaisée d’une opinion publique. Comme ce ne sont pas des “fake news” à proprement parler, c’est beaucoup plus difficile de contrer ce phénomène via la législation. C’est le talon d’Achille des démocraties à l’ère du numérique.

Le phénomène des "fakes news" risque-t-il de nuire aux prochaines élections ? Comment contre-attaquer?

Il faut voir au delà des fake news, et c’est ce que permet notre article, où les fake news ne sont qu’un cas d’application. Nous démontrons qu’il est possible de reconstituer le paysage politique d’un pays à partir des tweets et temps réel. Ceci étant, il est alors possible de contextualiser en temps réel l’information et de savoir quelles sont les communautés politiques qui essaient de mettre telle ou telle information à l’ordre du jour.

Quelque soit le type d’information, cet élément de contextualisation est très important. Par exemple, l’opinion publique accueillera différemment des tweets négatifs sur un candidats s’ils sont émis par ses opposant politiques ou s’ils sont émis par des trolls payés par un organisation étrangère. De même, un lecteur d’un journal lambda recevra un fait divers impliquant les migrants différemment s’il sait qu’il a été raconté et mis à l’agenda par l’extrême droite ou qu’il a choqué la France entière de manière spontanée. Ces exemples sont des cas d’astroturfing (création de l’illusion de l’adhésion d’un grand nombre d’individus à une cause).

Un certain nombre de travaux de recherche laissent penser qu’une campagne d’astroturfing bien menée pourrait effectivement changer le résultat d’une élection nationale ou européenne (voir par ex. notre publication), même s’il sera certainement très difficile de le démontrer. Nous avons documenté de telles tentatives pendant la présidentielle ici et là.

Pour contre-carrer les tentatives de manipulations de masse sur les réseaux sociaux, ce n’est donc pas tant les fake news qu’il faut viser, mais il faut arriver à proposer au grand public des outils transparents d’analyse temps réel de l’activité des différents territoires numériques sur une question donnée, outils qu’on peut appeler “des macroscopes sociaux”.

Il ne s’agit absolument pas de savoir qui individuellement diffuse tel ou tel info, mais de savoir quels sont les groupes sociaux qui s’en emparent afin que tout un chacun puisse se faire une idée des intentions qui motivent la diffusion d’une information donnée.

Un effort supplémentaire est également nécessaire du côté de l’éducation des jeunes sur les questions de vie privée et de manipulation d’opinion en ligne.

Enfin, notre système vote au scrutin majoritaire à deux tours est réputé pour sa vulnérabilité envers les manipulations et son instabilité lorsque, en présence de plusieurs candidats, l’opinion est fragmentée et polarisée (problème du vote utile, paradoxe d’Arrow, etc.). Pourtant, des modes de scrutin plus robustes existent, comme par exemple le jugement majoritaire. Changer le mode de scrutin serait ainsi le moyen le plus efficace et le plus rapide d’atténuer le phénomène des fake news et de la désinformation en ligne.

Qu‘est-ce qu’un macroscope social ?

Les téléscopes nous ont permis de voir les processus à l’œuvre dans le cosmos, les microscopes nous ont permis de voir les processus à l’œuvre dans le vivant, les macroscopes sociaux nous permettront de voir les processus à l’œuvre dans nos sociétés.

L’un des points de l’article est que des macroscopes sociaux existent déjà, qu’ils peuvent être fabriqués relativement aisément par qui s’en donne les moyens, qu’ils sont déjà utilisés par certains acteurs, et que si le citoyen lambda n’a pas conscience de cela et qu’il n’est pas donné au grand public de s’emparer de ce type d’outils, alors ces macroscopes deviendront des instruments de domination.