A propos des mesures de proximité sémantique utilisées dans Gargantext

Deux mesures sont proposées pour le moment dans Gargantext pour calculer la proximité entre deux termes :

  • la mesure conditionnelle, qui est une mesure absolue et qui reflète l’interaction entre deux termes dans le corpus. Elle va permettre d’identifier les communautés d’usage des termes, ou synthétiser les interactions qui ont pu être mises en évidence dans la littérature entre plusieurs entités (par exemple des médicaments).
  • la mesure distributionnelle, qui est relative à la liste de terme choisie et est une mesure d’équivalence structurale. Elle pourra lier deux termes, même s’ils ne sont jamais co-évoqués, mais interagissent de manière similaire avec un même ensemble de termes. Par exemple un terme et sa version argotique (caisse et voiture). Attention, la mesure ditributionnelle entre deux termes dépend de l’ensemble des autres termes de la map liste.

La mesure conditionnelle

La mesure conditionnelle P_c entre deux termes i et j, aussi appelée “confidence”, est le maximum des deux probabilités conditionnelles entre i et j. Si n_i (resp. n_j) est le nombre d’occurrences de i (resp. j) dans le corpus et n_{ij} le nombre de leur coocurrences, nous avons :

P_c=max(\frac{n_{ij}}{n_i},\frac{n_{ij}}{n_j} )

La mesure distributionnelle

La mesure distributionnelle P_c entre deux termes i et j, est:

(1)   \begin{equation*} S_{MI} =- \frac{sum_{k neq i,j ; MI_{ik} >0}^{} min(MI_{ik}, MI_{jk})} {sum_{k neq i,j ; MI_{ik}}^{}} \end{equation*}

où l’information mutuelle est: S{MI}({i},{j}) = log(\frac{C{ij}}{E{ij}})

Le nombre de co-occuccurrences de i et j, en d’autres termes, le nombre de fois où i et j apparissent dans le même document est C{ij}

L’espérance du nombre co-occurrences est: E_{ij} = \frac {S_{i} times S_{j}} {N_{i} times N_{j} }

le nombre de co-ocurrences total pour le terme i est : N_{i} = sum_{i}^{} S_{i}