Korelacja kanoniczna

Korelacja kanoniczna – metoda statystyczna, pozwalająca badać związek między dwoma zbiorami zmiennych. Stanowi swego rodzaju uogólnienie współczynnika korelacji Pearsona. Jest szczególnym przypadkiem Ogólnych Modeli Liniowych (GLM).

Cele

Metoda tworzy dla każdego z wejściowych zbiorów zmiennych tzw. zmienne kanoniczne będące sumami ważonymi zmiennych wejściowych z danego zbioru. Para zmiennych kanonicznych z obydwu zbiorów to tzw. pierwiastek kanoniczny.

Metoda tak dobiera wagi w tych sumach (tzw. wagi kanoniczne), aby przede wszystkim zmaksymalizować korelację pomiędzy pierwszą zmienną kanoniczną z jednego i drugiego zbioru, w następnej kolejności zmaksymalizować korelację między drugą parą zmiennych kanonicznych itd.

Maksymalna liczba pierwiastków jest równa minimum z liczby wejściowych zmiennych w jednym i w drugim zbiorze. Zmienne kanoniczne dotyczące tego samego zbioru zmiennych wejściowych są nieskorelowane.

Interpretacja geometryczna

Przekształcenie zmiennych wejściowych w zmienne kanoniczne odpowiada wprowadzeniu nowego układu współrzędnych, o niekoniecznie prostopadłych osiach i skalach innych niż pierwotnie. W przypadku, gdy liczba zmiennych jest w obydwu zbiorach równa i weźmiemy wszystkie zmienne kanoniczne, bez względu na ich istotność, przekształcenie to jest odwracalne (nie traci się żadnych informacji). W pewnym sensie zatem korelacja kanoniczna szuka takiego sposobu zaprezentowania dwóch zbiorów danych, przy którym najbardziej uwidaczniają się podobieństwa pomiędzy nimi.

Założenia

Współczynnik korelacji Pearsona jest estymatorem jednego z parametrów wielowymiarowego rozkładu normalnego. Dla rozkładów istotnie obiegających od normalnego, jego interpretacja jest wątpliwa, nie jest też możliwe oszacowanie istotności standardowymi testami parametrycznymi.

Dlatego też korelacja kanoniczna zakłada, że zmienne wejściowe mają wielowymiarowy rozkład normalny. Dla innych rozkładów, w szczególności w przypadku występowania elementów odstających wyniki, choć poprawne matematycznie, mogą być niemożliwe w interpretacji lub dawać fałszywy pogląd na temat danych.

W przypadku, gdy zmienne w tym samym zbiorze są liniowo zależne od siebie, macierz korelacji nie daje się odwrócić i algorytm korelacji kanonicznej nie działa (tzw. złe uwarunkowanie macierzy). Jeśli zmienne są bardzo bliskie liniowej zależności (np. dwie zmienne są skorelowane ze sobą na poziome 0,99), metoda zadziała, jednak wagi kanoniczne będą dawały fałszywy obraz. Przykładowo wprowadzając zamiast zmiennej $x$ dwie niemal równe jej zmienne $x_{1},x_{2},$ sprawimy, że wagi dla $x_{1},x_{2}$ będą równe ok. połowy wagi zmiennej $x,$ może się więc wydawać, że jakaś inna zmienna ma większy wpływ.

Model

Podstawowy model korelacji kanonicznej:

U=A^{T}X

oraz

V=B^{T}Y,

gdzie:

$X,Y$ – macierze, w których każda kolumna odpowiada jednej z wejściowych zmiennych z pierwszego (X) i drugiego (Y) zbioru,
$A,B$ – wyznaczane wektory współczynników,
$U,V$ – zmienne kanoniczne, których korelacja jest maksymalizowana.

Interpretacja wyników

Ponieważ wartość współczynnika korelacji nie zmienia się po pomnożeniu zmiennej kanonicznej przez dodatnią stałą lub dodaniu stałej, wagi kanoniczne normalizuje się zwykle tak, aby zmienne kanoniczne miały wartość oczekiwaną zero i wariancję 1, co pozwala na porównywanie wag.

Kwadraty współczynników korelacji między kolejnymi parami zmiennych kanonicznych to wartości własne, które można interpretować jako proporcję wariancji wyjaśnionej przez poszczególne pierwiastki kanoniczne.

Analogie z analizą czynnikową

Korelacja kanoniczna ma dużo cech wspólnych z analizą czynnikową ze zmiennymi kanonicznymi jako odpowiednikami czynników.

Zakłada się zwykle, że zmienne kanoniczne reprezentują pewnego rodzaju zmienne ukryte, nieobserwowalne bezpośrednio. Interpretacja wyników analizy polega często na znalezieniu interpretacji tych zmiennych w świecie rzeczywistym.

Korelacje między zmiennymi kanonicznymi a zmiennymi wejściowymi nazywane są ładunkami czynnikowymi. Ładunki czynnikowe w odróżnieniu od wag kanonicznych są odporne na skorelowanie zmiennych wejściowych. Ich kwadraty to tzw. wariancje wyodrębnione, czyli proporcje wariancji wyjaśnionej przez poszczególne ładunki.

Można też wyliczyć konkretne wartości zmiennych kanonicznych i poddać dalszej analizie statystycznej, podobnie jak w analizie czynnikowej.

Istotność statystyczna i minimalna liczność próby

Obliczana jest też istotność statystyczna dla każdego z pierwiastków. Zwykle najpierw obliczana jest istotność wszystkich pierwiastków łącznie, następnie istotność po usunięciu pierwszego pierwiastka, pierwszego i drugiego pierwiastka itd. Kiedy test pokaże nieistotność statystyczną pierwiastków począwszy od $k$ -tego, wynikiem analizy są pierwiastki od 1 do $k-1$ -szego.

Procedura ta była często krytykowana (np. Harris, 1976). Wyniki badań metodą Monte Carlo Mendozy, Markosa i Gontera (1978) wykazały jednak, że procedura wykrywa silne korelacje kanoniczne (R>0,7) nawet dla prób o liczności rzędu n=50. Dla wykrycia słabszych korelacji kanonicznych, rzędu 0,3 wymagane są większe próby (n>200).

Większych liczności wymaga interpretacja kanonicznych ładunków czynnikowych. Barcikowski i Stevens (1975) zalecają, aby obserwacji było 40 do 60 razy więcej niż zmiennych.

Oczywiście liczności te są orientacyjne i zależą od rozkładów w konkretnym zbiorze danych. Mogą drastycznie się zwiększyć w przypadku istnienia elementów odstających w danych, jak w przypadku wszystkich metod opartych na współczynniku korelacji.

Bibliografia

Harris R.J. (1976), The invalidity of partitioned U tests in canonical correlation and multivariate analysis of variance, „Multivariate Behavioral Research” 11, s. 353–365.
Barcikowski R., Stevens J.P. (1975), A Monte Carlo study of the stability of canonical correlations, canonical weights, and canonical variate-variable correlations, „Multivariate Behavioral Research” 10, s. 353–364.