Коэффициенты корреляции рангов спирмена, кендалла, коэффициент фехнера. Коэффициент ранговой корреляции кендалла Непараметрический коэффициент корреляции тау кендалла

Для вычисления коэффициента Кендалла значения факторного признака предварительно ранжируют, то есть ранги по Х записывают строго в порядке возрастания количественных значений.

1) Для каждого ранга по Y находят общее количество следующих за ним рангов, больших по значению, чем данный ранг. Общее количество таких случаев учитывают со знаком “+” и обозначают P.

2) Для каждого ранга по Y определяют количество следующих за ним рангов, меньших по значению, чем данный ранг. Общее количество таких случаев учитывают со знаком “-” и обозначают Q.

3) Рассчитывают S=P+Q=9+(-1)=8

4) Коэффициент Кенделла вычисляют по формуле:

Коэффициент Кенделла может принимать значения от -1 до +1 и чем ближе к , тем сильнее связь между признаками.

В некоторых случаях для определения направления связи между двумя признаками вычисляют коэффициент Фехнера . Этот коэффициент основан на сравнении поведения отклонений индивидуальных значений факторного и результативного признаков от своей средней величины. Коэффициент Фехнера вычисляют по формуле:

; где сумма С - общее число совпадений знаков отклонений, сумма Н - общее число несовпадений знаков отклонений.

1) Вычисляют среднюю величину факторного признака:

2) Определяют знаки отклонений индивидуальных значений факторного признака от средней величины.

3) Рассчитывают среднюю величину результативного признака: .

4) Находят знаки отклонений индивидуальных значений результативного признака от средней величины:

Вывод : связь прямая, о тесноте связи коэффициент не говорит.

Для определения степени тесноты связи между тремя ранжированными признаками вычисляют коэффициент конкордации. Он рассчитывается по формуле:

, где m - число ранжированных признаков; n - число ранжированных единиц наблюдения.

Отрасли промышленности X1 X2 X3 R1 R2 R3
Электроэнергетика 7,49
Топливная 12,70
Черная М. 5,92
Цветная М. 9,48
Машиностроение 4,18
Итог:

X1 - число работников (тыс. чел.); X2 - объем промышленных продаж (млрд. руб.); X3 - среднемесячная зарплата.

1) Значения всех признаков ранжируем и ранги устанавливаем строго в порядке возрастания количественных значений.

2) По каждой строке определяют сумму рангов. По этому столбцу вычисляется итоговая строка.

3) Вычисляют .

4) По каждой строке находят квадраты отклонений сумм рангов и величин Т. По этому же столбцу рассчитаем итоговую строку, которую обозначим через S. Коэффициент конкордации может принимать значения от 0 до 1 и чем ближе к 1, тем сильнее связь между признаками.

При ранжировании эксперт должен расположить оцениваемые элементы в порядке возрастания (убывания) их предпочтительности и приписать каждому из них ранги в виде натураль­ных чисел. При прямом ранжировании наиболее предпочтительный элемент имеет ранг 1 (иногда 0), а наименее предпочтительный - ранг m.

Если эксперт не может осуществить строгое ранжирование из-за того, что, по его мнению, некоторые элементы одинаковы по предпочтительности, то допускается присваивать таким элементам одинаковые ранги. Чтобы обеспечить равенство суммы рангов сумме мест ранжируемых элементов, применяют так называемые стандарти­зированные ранги. Стандартизированный ранг есть среднее арифмети­ческое номеров элементов в ранжиро­ванном ряду, являющихся одинако­выми по предпочтительности.

Пример 2.6. Эксперт упорядочил шесть элементов по предпочтению следующим образом:

Тогда стандартизированные ранги этих элементов будут

Таким образом, сумма рангов, приписанных элементам, будет равна сумме чисел натурального ряда.

Точность выражения предпочтения путем ранжирования элементов существенно зависит от мощности мно­жества предъявлений. Процедура ранжирования дает наиболее надежные результаты (по степени близости выявленного предпочтения и «истинного»), когда число оцениваемых элементов не более 10. Предельная мощность множества предъявления не должна превосходить 20.

Обработка и анализ ранжировок проводятся с целью построения группового отношения предпочтения на основе индивидуальных предпочтений. При этом могут ставиться следующие задачи: а) определение тесноты связи между ранжировками двух экспертов на элементах множества предъявлений; б) определение взаимосвязи между двумя элементами по индивидуальным мнениям членов группы относительно различных характеристик этих элементов; в) оценка согласованности мне­ний экспертов в группе, содержа­щей более двух экспертов.

В первых двух случаях в качестве меры тесноты связи используется коэффициент ранговой корреляции. В за­висимости от того, допускается ли только строгое или нестрогое ранжи­рование, используется коэффициент ранговой корреляции либо Кендалла, либо Спирмена.

Коэффициент ранговой корреляции Кендалла для задачи (a)

где m − число элементов; r 1 i – ранг,приписанный первым экспертом i −му элементу; r 2 i – то же, вторым экспертом.

Для задачи (б) компоненты (2.5) имеют следующий смысл: т - число характеристик двух оцениваемых эле­ментов; r 1 i (r 2 i) - ранг i-й характеристики в ранжировке первого (второго) элемента, выставленный группой экс­пертов.

При строгом ранжировании исполь­зуется коэффициент ранговой корреляции р Спирмена:


компоненты которого имеют тот же смысл, что и в (2.5).

Коэффициенты корреляции (2.5), (2.6) изменяются от -1 до +1. Если коэффициент корреляции равен +1, то это означает, что ранжировки одинаковы; если он равен -1, то − противоположны (ранжировки обратны друг другу). Равенство коэффициента корреляции нулю означает, что ран­жировки линейно независимы (некоррелированы).

Поскольку при таком подходе (эк­сперт − «измеритель» со случайной погрешностью) индивидуальные ран­жировки рассматриваются как случай­ные, то возникает задача статистиче­ской проверки гипотезы о значимости полученного коэффициента корреля­ции. В этом случае используют крите­рий Неймана-Пирсона: зада­ются уровнем значимости критерия α и, зная законы распределения коэффи­циента корреляции, определяют поро­говое значение c α , с которым сравни­вают полученное значение коэффици­ента корреляции. Критическая об­ласть − правосторонняя (в практике обычно сначала расчитывают значение критерия и определяют по нему уро­вень значимости, который сравнивают с пороговым уровнем α ).

Коэффициент ранговой корреляции τ Кендалла имеет при т > 10 распре­деление, близкое к нормальному с па­раметрами:

где M [τ] – математическое ожидание; D [τ] – дисперсия.

В этом случае используются таблицы функции стандартного нормального распределения:

а граница τ α критической области определяется как корень уравнения

Если вычисленное значение коэф­фициента τ ≥ τ α , то считается, что ранжировки, действительно хорошо согласуются. Обычно значение α вы­бирают в пределах 0,01-0,05. Для т ≤ 10 распределение т приведено в табл. 2.1.

Проверка значимости согласован­ности двух ранжировок с использованием коэффициента ρСпирмена осу­ществляется в том же порядке с ис­пользованием таблиц распределения Стьюдента при т > 10.

В этом случае величина

имеет распределение, хорошо аппроксимируемое распределением Стьюдента с m – 2 степенями свободы. При m > 30 распределение величины ρ хорошо согласуется с нормальным, имеющим M [ρ] = 0 и D [ρ] = .

Для т ≤ 10 проверку значимости ρ осуществляют с помощью табл. 2.2.

Если ранжировки нестрогие, то коэффициент Спирмена

где ρ – вычисляют по (2.6);

где k 1 , k 2 − число различных групп нестрогих рангов в первой и второй ранжировках соответственно; l i − число одинаковых рангов в i -й группе. При практическом использовании ко­эффициентов ранговой корреляции ρ Спирмена и τ Кендалла следует иметь в виду, что коэффициент ρ обеспечивает более точный результат в смысле ми­нимума дисперсии.

Таблица 2.1. Распределение коэффициента ранговой корреляции Кендалла

Ранговый коэффициент корреляции характеризует общий характер нелинейной зависимости: возрастание или убывание результативного признака при возрастании факторного. Это показатель тесноты монотонной нелинейной связи.

Назначение сервиса . С помощью данного онлайн-калькулятора производится расчет коэффициента ранговой корреляции Кендэла по всем основным формулам, а также оценка его значимости.

Инструкция . Укажите количество данных (количество строк). Полученное решение сохраняется в файле Word .

Предложенный Кендэлом коэффициент строится на основе отношений типа «больше –меньше», справедливость которых установлена при построении шкал.
Выделим пару объектов и сравним их ранги по одному признаку и по другому. Если по данному признаку ранги образуют прямой порядок (т.е. порядок натурального ряда), то паре приписывается +1, если обратный, то –1. Для выделенной пары соответствующие плюс – минус единицы (по признаку X и по признаку Y) перемножаются. Результат, очевидно, равен +1; если ранги пары обоих признаков расположены в одинаковой последовательности, и –1 , если в обратной.
Если порядки рангов по обоим признакам у всех пар одинаковы, то сумма единиц, приписанных всем парам объектов, максимальна и равна числу пар. Если порядки рангов всех пар обратны, то –C 2 N . В общем случае C 2 N = P + Q, где P – число положительных, а Q – отрицательных единиц, приписанных парам при сопоставлении их рангов по обоим признакам.
Величина называется коэффициентом Кендалла.
Из формулы видно, что коэффициент τ представляет собой разность доли пар объектов, у которых совпадает порядок по обоим признакам (по отношению к числу всех пар) и доли пар объектов, у которых порядок не совпадает .
Например, значение коэффициента 0,60 означает, что у 80% пар порядок объектов совпадает, а у 20% не совпадает (80% + 20% = 100%; 0,80 – 0,20 = 0,60). Т.е. τ можно трактовать как разность вероятностей совпадения и не совпадения порядков по обоим признакам для наугад выбранной пары объектов.
В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким.
Покажем, как упростить вычисления.


Пример . Зависимость между объемом промышленной продукции и инвестициями в основной капитал по 10 областям одного из федеральных округов РФ в 2003 году характеризуется следующими данными:


Вычислите ранговые коэффициенты корреляции Спирмена и Кендэла. Проверить их значимость при α=0,05. Сформулируйте вывод о зависимости между объемом промышленной продукции и инвестициями в основной капитал по рассматриваемым областям РФ.

Решение . Присвоим ранги признаку Y и фактору X.


Упорядочим данные по X.
В ряду Y справа от 3 расположено 7 рангов, превосходящих 3, следовательно, 3 породит в Р слагаемое 7.
Справа от 1 стоят 8 ранга, превосходящих 1 (это 2, 4, 6, 9, 5, 10, 7, 8), т.е. в Р войдет 8 и т.д. В итоге Р = 37 и с использованием формул имеем:

X Y ранг X, d x ранг Y, d y P Q
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


По упрощенным формулам:




где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1-α)/2.
Если |τ| < T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| > T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1-α)/2 = (1 - 0.05)/2 = 0.475

Найдем критическую точку:

Так как τ > T kp - отвергаем нулевую гипотезу; ранговая корреляционная связь между оценками по двум тестам значимая.

Пример . По данным об объеме строительно-монтажных работ, выполненных собственными силами, и численности работающих в 10 строительных компаниях одного из городов РФ, определить зависимость между этими признаками с помощью коэффициента Кендела.

Решение находим с помощью калькулятора .
Присвоим ранги признаку Y и фактору X.
Расположим объекты так, чтобы их ранги по X представили натуральный ряд. Так как оценки, приписываемые каждой паре этого ряда, положительные, значения «+1», входящие в Р, будут порождаться только теми парами, ранги которых по Y образуют прямой порядок.
Их легко подсчитать, сопоставляя последовательно ранги каждого объекта в ряду Y с стальными.
Коэффициент Кендэла .

В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким. Покажем, как упростить вычисления.

или

Решение .
Упорядочим данные по X.
В ряду Y справа от 2 расположено 8 рангов, превосходящих 2, следовательно, 2 породит в Р слагаемое 8.
Справа от 4 стоят 6 ранга, превосходящих 4 (это 7, 5, 6, 8, 9, 10), т.е. в Р войдет 6 и т.д. В итоге Р = 29 и с использованием формул имеем:

X Y ранг X, d x ранг Y, d y P Q
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


По упрощенным формулам:


Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Кендалла при конкурирующей гипотезе Н 1: τ ≠ 0,надо вычислить критическую точку:

где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1 - α)/2.
Если |τ| T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1 - α)/2 = (1 - 0.05)/2 = 0.475
По таблице Лапласа находим z kp = 1.96
Найдем критическую точку:

Так как τ