Коефіцієнт кореляції рангу Кендала

У статистиці коефіцієнт кореляції рангу Кендала, як правило, називають $\tau$ -коефіцієнт (тау-коефіцієнт) Кендла. Він використовується у статистиці для вимірювання зв'язку між двома величинами. $\tau$ -тест — це непараметричний тест статистичних гіпотез залежності на основі $\tau$ -коефіцієнта. Зокрема, він є мірою рангової кореляції, тобто подібності упорядкування даних, коли вони упорядкуванні за своєю величиною. Цей коефіцієнт названий на честь Моріса Кендала, який розробив теорію, в якій використовував цей коефіцієнт, в 1938 році, хоча Густав Фехнер запропонував аналогічну міру в контексті часових рядів ще в 1897 році.

Означення

Нехай $(x_{1},y_{1}),(x_{2},y_{2}),\dots ,(x_{n},y_{n})$ — набір спостережень спільних випадкових величин X і Y відповідно, так що всі значення (x_к) і (y_к) не є однаковими для будь-якого k=1..n. Будь-яка пара спостережень $(x_{i},y_{i})$ і $(x_{j},y_{j})$ називається узгодженою, якщо узгоджені ряди для обох елементів: тобто, якщо $x_{i}>x_{j}$ та $y_{i}>y_{j}$ або якщо $x_{i}<x_{j}$ та $y_{i}<y_{j}$ . Вони називаються неузгодженими (або дисонуючими), якщо $x_{i}>x_{j}$ та $y_{i}<y_{j}$ або якщо $x_{i}<x_{j}$ та $y_{i}>y_{j}$ . Якщо $x_{i}=x_{j}$ або $y_{i}=y_{j}$ , то пара не є ні узгодженою ні неузгодженою.

$\tau$ — коефіцієнт Кендалла визначається наступним чином:

\tau ={\frac {s_{1}-s_{2}}{{\frac {1}{2}}n(n-1)}}

Де $s_{1}$ — кількість узгоджених пар, $s_{2}$ — кількість неузгоджених пар.

Властивості

Знаменник — це загальна кількість пар, отже коефіцієнт знаходить в діапазоні $-1\leqslant \tau \leqslant 1$ .
Якщо узгодженість між двома величинами X та Y є ідеальною (тобто ранги двох величин збігаються), то коефіцієнт має значення 1.
Якщо розбіжність між двома величинами X та Y є ідеальною (тобто вони мають обернені порядки зростання), то коефіцієнт дорівнює −1.
Якщо X та Y незалежні, то математичне сподівання $\tau$ дорівнює нулю.
Використовуючи signum-функцію формулу можна записати у вигляді $\tau ={\frac {2}{n(n-1)}}\sum _{i<j}\operatorname {sgn}(x_{i}-x_{j})\operatorname {sgn}(y_{i}-y_{j})$ .

Перевірка гіпотези

Коефіцієнт рангу Кендала часто використовується для статистичної оцінки в перевірці статистичних гіпотез для визначення чи можуть дві змінні розглядатись як статистично залежні. Цей тест є непараметричний, так як він не залежить від будь-яких припущень про розподіл X або Y або розподіл (x, y). При нульовій гіпотезі незалежності X і Y, вибірковий розподіл τ має очікуване значення -нуль. Точний розподіл не може бути охарактеризований з точки зору спільних розподілів, але може вираховуватись для малих вибірок; для більших вибірок, поширеним є використання наближення для нормального розподілу з математичним сподіванням рівним нулю і дисперсією випадкової величини.

Облік зв'язків

Пара {(xi, yi), (xj, yj)}, як кажуть, зв'язані, якщо xi = xi або yi=yj; зв'язні пари не є ні узгодженими ні неузгодженими. Якщо пов'язанні пари виникають в даних, коефіцієнт може бути змінений декількома способами, щоб тримати його в діапазоні [-1, 1]:

$\tau$ -a

Статистична величина $\tau$ -a перевіряє міру узгодженості таблиці всіх пар (xi, yi),. Обидві змінні повинні бути порядковим.

$\tau$ -b

Статистична величина $\tau$ -b, на відміну від $\tau$ -a, вносить зміни в зв'язки. Значення $\tau$ -b знаходяться в діапазоні від −1 до +1. Нульове значення свідчить про відсутність узгодженості. $\tau$ -b коефіцієнт визначається таким чином:

\tau _{B}={\frac {n_{c}-n_{d}}{\sqrt {(n_{0}-n_{1})(n_{0}-n_{2})}}}

Де:

{\begin{aligned}n_{0}&=n(n-1)/2\\n_{1}&=\sum _{i}t_{i}(t_{i}-1)/2\\n_{2}&=\sum _{j}u_{j}(u_{j}-1)/2\end{aligned}}

$n_{c}$ = кількість узгоджених пар
$n_{d}$ = кількість неузгоджених пар
$t_{i}$ = кількість зв'язків величин в i-тій групі зв'язків першої величини
$u_{j}$ = зв'язків величин в j-тій групі зв'язків другої величини

$\tau$ -c

$\tau$ -c відрізняється від $\tau$ -b тим, що більш підходить для прямокутних ніж для квадратних таблиць.

Приклад

Коли дві величини є статистично незалежними, то розподіл

\tau

не можна легко описати виходячи з відомих розподілів. Проте, для

\tau _{A}

наступна величина —

\mathrm {Z} _{A}

— наближено розподілена у вигляді нормального розподілу, якщо зміні є статистично незалежними:

z_{A}={\frac {3(n_{c}-n_{d})}{\sqrt {n(n-1)(2n+5)/2}}}

Таким чином, щоб перевірити чи є дві змінні залежними, обчислюють

\mathrm {Z} _{A}

та знаходять кумулятивну ймовірність для стандартного нормального розподілу на -|

\mathrm {Z} _{A}

|.

$\mathrm {Z} _{B}$ має той самий розподіл, що й $\tau _{B}$ розподіл і приблизно дорівнює стандартному нормальному розподілу, коли величини статистично незалежні:

\mathbb {Z} _{B}={\frac {n_{c}-n_{d}}{\sqrt {v}}}\,

Де

{\begin{array}{ccl}v&=&(v_{0}-v_{t}-v_{u})/18+v_{1}+v_{2}\\v_{0}&=&n(n-1)(2n+5)\\v_{t}&=&\sum _{i}t_{i}(t_{i}-1)(2t_{i}+5)\\v_{u}&=&\sum _{j}u_{j}(u_{j}-1)(2u_{j}+5)\\v_{1}&=&\sum _{i}t_{i}(t_{i}-1)\sum _{j}u_{j}(u_{j}-1)/(2n(n-1))\\v_{2}&=&\sum _{i}t_{i}(t_{i}-1)(t_{i}-2)\sum _{j}u_{j}(u_{j}-1)(u_{j}-2)/(9n(n-1)(n-2))\end{array}}

Коефіцієнт кореляції рангу Кендала

Зміст

Означення

Перевірка гіпотези

Облік зв'язків

Приклад

Посилання