On se situe dans le cadre de l'analyse de données dans lesquelles un ensemble d'individus est décrit par un ensemble de variables. La matrice des liaisons rassemble les indicateurs de liaison entre les variables prises deux à deux. Elle généralise la matrice des corrélations au cas où l’on dispose simultanément de variables quantitatives et de variables qualitatives.
Contexte
En statistique, il est utile de mesurer l’intensité de la liaison entre deux variables par un indicateur. Le plus connu est le coefficient de corrélation, ou son carré noté classiquement , calculé entre deux variables quantitatives.
Entre une variable quantitative et une variable qualitative, l’intensité de la liaison est mesurée par le carré du rapport de corrélation (noté classiquement )[b 1].
Entre deux variables qualitatives, les deux indicateurs classiques sont le (noté ) et le coefficient de Cramer[b 2].
Lorsque l’on est en présence de plusieurs variables, il est utile de rassembler ces coefficients dans une matrice telle que, à l’intersection de la ligne et de la colonne on trouve la mesure d’intensité de la liaison entre les variables et . Ceci est fait couramment lorsque les variables sont toutes quantitatives, auquel cas on calcule la matrice des corrélations.
Définition
En présence de variables des deux types, une extension de la matrice des corrélations est la matrice des liaisons dans laquelle, à l’intersection de la ligne et de la colonne on trouve :
si et sont quantitatives : .
si est quantitative et qualitative : .
si et sont qualitatives : .
La diagonale de cette matrice comporte la valeur 1 si la variable est quantitative et le nombre de modalités moins 1 si la variable est qualitative.
Exemple numérique
Six individus sont décrits par trois variables quantitatives et trois variables qualitatives ayant respectivement 3, 2 et 3 modalités. À partir des données du tableau 1, on calcule la matrice des liaisons du tableau 2.
Tableau 1. Données
2
4.5
4
-A
-B
-C
5
4.5
4
-C
-B
-C
3
1
2
-B
-B
-B
4
1
2
-B
-B
-B
1
1
1
-A
-A
-A
6
1
2
-C
-A
-A
Tableau 2. Matrice des liaisons associée au tableau 1.
1
0.00
0.05
0.91
0.00
0.00
0.00
1
0.90
0.25
0.25
1.00
0.05
0.90
1
0.13
0.40
0.93
0.91
0.25
0.13
2
0.25
1.00
0.00
0.25
0.40
0.25
1
1.00
0.00
1.00
0.93
1.00
1.00
2
Lecture
Variables quantitatives.
Les variables et sont étroitement corrélées entre elles et non corrélés à .
Variables qualitatives.
La variable n’est pratiquement pas liée à et est liée à . Les variables et sont liées .
Variables quantitatives et qualitatives.
La variable est liée uniquement (et étroitement) à .
Les variables et sont liées étroitement à ou et ne sont pas liées aux deux autres variables qualitatives .
Synthèse et visualisation
De même qu’une matrice des corrélations peut être utilement visualisée par l’Analyse en composantes principales (ACP), une matrice des liaisons peut être utilement visualisée par l’Analyse Factorielle des Données Mixtes (AFDM)[b 3]. En particulier l’AFDM fournit un graphique dit « carré des liaisons »[b 4], sur lequel les variables quantitatives et qualitatives sont simultanément représentées.
Si l’on réordonne les variables selon le premier axe de l’AFDM, la matrice des liaisons fait apparaître des groupes de variables liées entre elles. Si l’on veut expliciter des groupes, il vaut mieux ne pas imposer à ces groupes d’être disjoints puisqu’une variable qualitative peut être parfaitement liée à deux variables quantitatives non corrélées.
Dans l’exemple, cela conduit au tableau 3 dans lequel on peut voir trois groupes de variables : : ces trois variables caractérisent les individus et . : ces deux variables caractérisent les individus et (on pourrait aussi ajouter , liée à mais pas à ). : ces deux variables opposent les individus et .
(fr) Gilbert Saporta, Probabilités, analyse des données et statistique, Technip, Paris, 2006, 2e éd. (1re éd. 1990), 622 p. (ISBN978-2-7108-0814-5, lire en ligne)
(fr) Pierre Dagnélie, Statistique théorique et appliquée. Tome 2. Inférence statistique à une et à deux dimensions, Bruxelles/Paris, Bruxelles, De Boeck, 2011, 3e éd. (1re éd. 1998), 736 p. (ISBN978-2-8041-6336-5)
(fr) Jérôme Pagès, « Analyse factorielle de données mixtes », Revue de Statistique appliquée, vol. 52, no 4, , p. 93-111 (lire en ligne [PDF])
(fr) Jérôme Pagès, Analyse factorielle multiple avec R, Les Ulis, EDP sciences, Paris, , 253 p. (ISBN978-2-7598-0963-9)