A propos des mesures de proximité sémantique utilisées dans Gargantext
Deux mesures sont proposées pour le moment dans Gargantext pour calculer la proximité entre deux termes :
- la mesure conditionnelle, qui est une mesure absolue et qui reflète l’interaction entre deux termes dans le corpus. Elle va permettre d’identifier les communautés d’usage des termes, ou synthétiser les interactions qui ont pu être mises en évidence dans la littérature entre plusieurs entités (par exemple des médicaments).
- la mesure distributionnelle, qui est relative à la liste de terme choisie et est une mesure d’équivalence structurale. Elle pourra lier deux termes, même s’ils ne sont jamais co-évoqués, mais interagissent de manière similaire avec un même ensemble de termes. Par exemple un terme et sa version argotique (caisse et voiture). Attention, la mesure ditributionnelle entre deux termes dépend de l’ensemble des autres termes de la map liste.
La mesure conditionnelle
La mesure conditionnelle entre deux termes et , aussi appelée « confidence », est le maximum des deux probabilités conditionnelles entre et . Si (resp. ) est le nombre d’occurrences de (resp. ) dans le corpus et le nombre de leur coocurrences, nous avons :
La mesure distributionnelle
La mesure distributionnelle entre deux termes et , est:
(1)
où l’information mutuelle est:
Le nombre de co-occurrences de i et j, en d’autres termes, le nombre de fois où i et j apparissent dans le même document est
L’espérance du nombre co-occurrences est:
le nombre de co-ocurrences total pour le terme i est :