Коэффициенты ранговой корреляции кендалла и спирмена. Ранговая корреляция и коэффициент ранговой корреляции кендалла Коэффициент ранговой корреляции кендалла в excel

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:

где S = P Q .

P большим значением рангов Y.

Q - суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)

Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:

t - число связанных рангов в ряду X и Y соответственно.

19.Из чего следует исходить, определяя тему, объект, предмет, цель, задачи и гипотезу исследования?

Программа исследования, как правило, имеет два раздела: методологический и процедурный. Первый включает обоснование актуальности темы, формулировку проблемы, определение объекта и предмета, целей и задач исследования, формулировку основных понятий (категориального аппарата), предварительный системный анализ объекта исследования и выдвижение рабочей гипотезы. Во втором разделе раскрывается стратегический план исследования, а также план и основные процедуры сбора и анализа первичных данных.

В первую очередь при выборе темы исследования надо исходить из актуальности. Обоснование актуальности включает указание на необходимость и своевременность изучения и решения проблемы для дальнейшего развития теории и практики обучения и воспитания. Актуальные исследования дают ответ на наиболее острые в данное время вопросы, отражают социальный заказ общества педагогической науке, обнаруживают важнейшие противоречия, которые имеют место в практике. Критерий актуальности динамичен, подвижен, зависит от времени, учета конкретных и специфических обстоятельств. В самом общем виде актуальность характеризует степень расхождения между спросом на научные идеи и практические рекомендации (для удовлетворения той или иной потребности) и предложениями, которые может дать наука и практика в настоящее время.

Наиболее убедительным основанием, определяющим тему исследования, является социальный заказ, отражающий самые острые, общественно значимые проблемы, требующие безотлагательного решения. Социальный заказ требует обоснования конкретной темы. Обычно это анализ степени разработанности вопроса в науке.

Если социальный заказ вытекает из анализа педагогической практики, то саманаучная проблема находится в другой плоскости. Она выражает основное противоречие, которое должно быть разрешено средствами науки. Решение проблемы обычно и составляет цель исследования. Цель - переформулированная проблема.

Формулировка проблемы влечет за собой выбор объекта исследования. Им может быть педагогический процесс, область педагогической действительности или какое-либо педагогическое отношение, содержащее в себе противоречие. Другими словами, объектом может быть все то, что явно или неявно содержит в себе противоречие и порождает проблемную ситуацию. Объект - это то, на что направлен процесс познания. Предмет исследования - часть, сторона объекта. Это те наиболее значимые с практической или теоретической точки зрения свойства, стороны, особенности объекта, которые подлежат непосредственному изучению.

В соответствии с целью, объектом и предметом исследования определяются исследовательские задачи, которые, как правило, направлены на проверку гипотезы. Последняя представляет собой совокупность теоретически обоснованных предположений, истинность которых подлежит проверке.

Критерий научной новизны применим для оценки качества завершенных исследований. Он характеризует новые теоретические и практические выводы, закономерности образования, его структуру и механизмы, содержание, принципы и технологии, которые к данному моменту времени не были известны и не зафиксированы в педагогической литературе. Новизна исследования может иметь как теоретическое, так и практическое значение. Теоретическое значение исследования заключается в создании концепции, получении гипотезы, закономерности, метода, модели выявления проблемы, тенденции, направления. Практическая значимость исследования состоит в подготовке предложений, рекомендаций и т.п. Критерии новизны, теоретической и практической значимости меняются в зависимости от типа исследования, они зависят также от времени получения нового знания.

Краткая теория

Коэффициент корреляции Кендалла используется в случае, когда переменные представлены двумя порядковыми шкалами при условии, что связанные ранги отсутствуют. Вычисление коэффициента Кендалла связано с подсчетом числа совпадений и инверсий.

Этот коэффициент изменяется в пределах и рассчитывается по формуле:

Для расчета все единицы ранжируются по признаку ; по ряду другого признака подсчитывается для каждого ранга число последующих рангов, превышающий данный (их обозначим через ), и число последующих рангов ниже данного (их обозначим через ).

Можно показать, что

и коэффициент ранговой корреляции Кендалла можно записать как

Для того, чтобы при уровне значимости , проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Кендалла при конкурирующей гипотезе , надо вычислить критическую точку:

где – объем выборки; – критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству

Если – нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между признаками незначимая.

Если – нулевую гипотезу отвергают. Между признаками существует значимая ранговая корреляционная связь.

Пример решения задачи

Условие задачи

При приеме на работу семи кандидатам на вакантные должности было предложено два теста. Результаты тестирования (в баллах) приведены в таблице:

Тест Кандидат 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Вычислить ранговый коэффициент корреляции Кендалла между результатами тестирования по двум тестам и на уровне оценить его значимость.

Решение задачи

Вычислим коэффициент Кендалла

Ранги факторного признака располагаются строго в порядке возрастания и параллельно записываются соответствующие им ранги результативного признака . Для каждого ранга из числа следующих за ним рангов подсчитывается количество больших него по величине рангов (заносится в столбец ) и число рангов, меньших по значению (заносится в столбец ).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Сумма 16 5

Одним из факторов, ограничивающих применения критериев, основанных на предположении нормальности, является объем выборки. До тех пор пока выборка достаточно большая (например, 100 или больше наблюдений), можно считать, что выборочное распределение нормально, даже если вы не уверены, что распределение переменной в популяции является нормальным. Тем не менее, если выборка мала, эти критерии следует использовать только при наличии уверенности, что переменная действительно имеет нормальное распределение. Однако нет способа проверить это предположение на малой выборке.

Использование критериев, основанных на предположении нормальности, кроме того, ограничено шкалой измерений (см. главу Элементарные понятия анализа данных). Такие статистические методы, как t-критерий, регрессия и т. д. предполагают, что исходные данные непрерывны. Однако имеются ситуации, когда данные, скорее, просто ранжированы (измерены в порядковой шкале), чем измерены точно.

Типичный пример дают рейтинги сайтов в Интернет: первую позицию занимает сайт с максимальным числом посетителей, вторую позицию занимает сайт с максимальным числом посетителей среди оставшихся сайтов (среди сайтов, из которых удален первый сайт) и т. д. Зная рейтинги, мы можем сказать, что число посетителей одного сайта больше числа посетителей другого, но насколько больше, сказать уже нельзя. Представьте, вы имеете 5 сайтов: А, В, С, D, Е, которые располагаются на 5 первых мест. Пусть в текущем месяце мы имели следующую расстановку: А, В, С, D, E, а в предыдущем месяце: D, E, А, В, С. Спрашивается, произошли существенные изменения в рейтингах сайтов или нет? В данной ситуации, очевидно, мы не можем использовать t-критерий, чтобы сравнить эти две группы данных, и переходим в область специфических вероятностных вычислений (а любой статистический критерий содержит в себе вероятностную калькуляцию!). Мы рассуждаем примерно следующим образом: насколько велика вероятность того, что отличие в двух расстановках сайтов вызвано чисто случайными причинами или это отличие слишком велико и не может быть объяснено за счет чистой случайности. В этих рассуждениях мы используем лишь ранги или перестановки сайтов и никак не используем конкретный вид распределения числа посетителей на них.

Для анализа малых выборок и для данных, измеренных в бедных шкалах, применяют непараметрические методы.

Краткий обзор непараметрических процедур

По существу, для каждого параметрического критерия имеется, по крайней мере, одна непараметрическая альтернатива.

В общем, эти процедуры попадают в одну из следующих категорий:

  • критерии различия для независимых выборок;
  • критерии различия для зависимых выборок;
  • оценка степени зависимости между переменными.

Вообще, подход к статистическим критериям в анализе данных должен быть прагматическим и не отягощен лишними теоретическими рассуждениями. Имея в своем распоряжении компьютер с системой STATISTICA, вы легко примените к своим данным несколько критериев. Зная о некоторых подводных камнях методов, вы путем экспериментирования выберете верное решение. Развитие сюжета довольно естественно: если нужно сравнить значения двух переменных, то вы используете t-критерий. Однако следует помнить, что он основан на предположении нормальности и равенстве дисперсий в каждой группе. Освобождение от этих предположений приводит к непараметрическим тестам, которые особенно полезны для малых выборок.

Развитие t-критерия приводит к дисперсионному анализу, который используется, когда число сравниваемых групп больше двух. Соответствующее развитие непараметрических процедур приводит к непараметрическому дисперсионному анализу, правда, существенно более бедному, чем классический дисперсионный анализ.

Для оценки зависимости, или, выражаясь несколько высокопарно, степени тесноты связи, вычисляют коэффициент корреляции Пирсона. Строго говоря, его применение имеет ограничения, связанные, например, с типом шкалы, в которой измерены данные, и нелинейностью зависимости, поэтому в качестве альтернативы используются также непараметрические, или так называемые ранговые, коэффициенты корреляции, применяемые, например, для ранжированных данных. Если данные измерены в номинальной шкале, то их естественно представлять в таблицах сопряженности, в которых используется критерий хи-квадрат Пирсона с различными вариациями и поправками на точность.

Итак, по существу имеется всего несколько типов критериев и процедур, которые нужно знать и уметь использовать в зависимости от специфики данных. Вам нужно определить, какой критерий следует применять в конкретной ситуации.

Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n >100), часто не имеет смысла использовать непараметрическую статистику.

Если размер выборки очень мал (например, n = 10 или меньше), то уровни значимости для тех непараметрических критериев, которые используют нормальное приближение, можно рассматривать только как грубые оценки.

Различия между независимыми группами . Если имеются две выборки (например, мужчины и женщины), которые нужно сравнить относительно некоторого среднего значения, например, среднего давления или количества лейкоцитов в крови, то можно использовать t-тест для независимых выборок.

Непараметрическими альтернативами этому тесту являются критерий серий Валъда-Волъфовица, Манна-Уитни }/n, где x i - i-е значение, n - число наблюдений. Если переменная содержит отрицательные значения или нуль (0), геометрическое среднее вычислить нельзя.

Гармоническое среднее

Гармоническое среднее иногда используют для усреднения частот. Гармоническое среднее вычисляется по формуле: ГС = n/S(1/х i) где ГС - гармоническое среднее, n - число наблюдений, х i - значение наблюдения с номером i. Если переменная содержит нуль (0), гармоническое среднее вычислить нельзя.

Дисперсия и стандартное отклонение

Выборочная дисперсия и стандартное отклонение - наиболее часто используемые меры изменчивости (вариации) данных. Дисперсия вычисляется как сумма квадратов отклонений значений переменной от выборочного среднего, деленная на п-1 (но не на п). Стандартное отклонение вычисляется как корень квадратный из оценки дисперсии.

Размах

Размах переменной является показателем изменчивости, вычисляется как максимум минус минимум.

Квартильный размах

Квартальный размах, по определению, равен: верхняя квартиль минус нижняя квартиль (75% процентиль минус 25% процентиль). Так как 75% процентиль (верхняя квартиль) - это значение, слева от которого находятся 75% наблюдений, а 25% процентиль (нижняя квартиль) - это значение, слева от которого находится 25% наблюдении, то квартильный размах представляет собой интервал вокруг медианы, который содержит 50% наблюдений (значений переменной).

Асимметрия

Асимметрия - это характеристика формы распределения. Распределение скошено влево, если значение асимметрии отрицательно. Распределение скошено вправо, если асимметрия положительна. Асимметрия стандартного нормального распределения равна 0. Асимметрия связана с третьим моментом и определяется как: асимметрия = n × М 3 /[(n-1) × (n-2) × s 3 ], где М 3 равно: (х i -xсреднее x) 3 , s 3 - стандартное отклонение, возведенное в третью степень, n - число наблюдений.

Эксцесс

Эксцесс - это характеристика формы распределения, а именно мера остроты его пика (относительно нормального распределения, эксцесс которого равен 0). Как правило, распределения с более острым пиком, чем у нормального, имеют положительный эксцесс; распределения, пик которых менее острый, чем пик нормального распределения, имеют отрицательный эксцесс. Эксцесс связан с четвертым моментом и определяется формулой:

эксцесс = /[(n-1) × (n-2) × (n-3) × s 4 ], где M j равно: (х-хсреднее x , s 4 - стандартное отклонение в четвертой степени, n - число наблюдений.

Представление и предварительная обработка оценок экспертов

В практике используется несколько видов оценок:

- качественные (часто-редко, хуже-лучше, да-нет),

- шкальные оценки (интервалы значений 50-75, 76-90, 91-120 и т.п.),

Балльныеиз заданного интервала (от 2 до 5, 1 -10), взаимно независимые,

Ранговые (объекты располагаются экспертом в определенном порядке, и каждому приписывается порядковый номер – ранг),

Сравнительные, полученные одним из методов сравнения

метод последовательных сравнений

метод попарного сравнения факторов.

На следующем шаге обработки мнений экспертов необходимо оценить степень согласованности этих мнений.

Оценки, полученные от экспертов, могут рассматриваться как случайная переменная, распределение которой отражает мнения экспертов о вероятности того или иного выбора события (фактора). Поэтому для анализа разброса и согласованности оценок экспертов применяются обобщенные статистические характеристики – средние и меры разброса:

Средняя квадратичная ошибка,

Вариационный размах min – maх,

- коэффициент вариации V =ср.квадр.откл./ средняя арифм. (подходит для любого типа оценок)

V i = σ i / x i ср

Для оценки меры сходств а мнений каждой пары экспертов могут быть использованы самые разные методы:

коэффициенты ассоциации , с помощью которых учитывается число совпадающих и несовпадающих ответов,

коэффициенты противоречивости мнений экспертов,

Все эти меры можно использовать либо для сравнения мнений двух экспертов, либо для анализа связи между рядами оценок по двум признакам.

Коэффициент парной ранговой корреляции Спирмена:

где n – число экспертов,

c k – разность оценок i-го и j-го экспертов по всем T факторам

Коэффициент ранговой корреляции Кендалла (коэффициент конкордации) дает общую оценку согласованности мнений всех экспертов по всем факторам, но только для случаев, когда использовались ранговые оценки.

Доказано, что величина S, когда все эксперты дают одинаковые оценки всех факторов, имеет максимальное значение, равное

где n – число факторов,

m – количество экспертов.

Коэффициент конкордации равен отношению

причем если W близок к 1, то все эксперты дали достаточно согласованные оценки, иначе их мнения не согласованы.

Формула для расчета S приведена ниже:

где r ij - ранговые оценки i-го фактора j-ым экспертом,

r ср - средний ранг по всей матрице оценок и равен

И следовательно формула расчета S может принять вид:

В случае, если отдельные оценки у одного эксперта совпадают, и их при обработке сделали стандартизированными, то для вычисления коэффициента конкордации используется другая формула:



где Т j рассчитывается для каждого эксперта (в том случае, если его оценки повторялись для разных объектов) с учетом повторений по следующим правилам:

где t j - число групп равных рангов у j-го эксперта, а

h k - число равных рангов в k-ой группе связанных рангов j-го эксперта.

ПРИМЕР. Пусть 5 экспертов по шести факторам ответили при ранжировании так, как показано в таблице 3:

Таблица 3 – Ответы экспертов

Эксперты О1 О2 О3 О4 О5 О6 Сумма рангов по эксперту
Э1
Э2
Э3
Э4
Э5

В связи с тем, что получено не строгое ранжирование (оценки у экспертов повторяются, а суммы рангов не равны), произведем преобразование оценок и получим связанные ранги (таблица 4):

Таблица 4 – Связанные ранги оценок экспертов

Эксперты О1 О2 О3 О4 О5 О6 Сумма рангов по эксперту
Э1 2,5 2,5
Э2
Э3 1,5 1,5 4,5 4,5
Э4 2,5 2,5 4,5 4,5
Э5 5,5 5,5
Сумма рангов по объекту 7,5 9,5 23,5 29,5

Теперь определим степень согласованности мнений экспертов с помощью коэффициента конкордации. Так как ранги связанные, будем вычислять W по формуле (**).

Тогда r ср =7*5/2=17,5

S = 10 2 +8 2 +4.5 2 +4.5 2 +6 2 +12 2 = 384.5

Перейдем к расчетам W. Для этого вычислим отдельно значения T j . В примере специально так подобраны оценки, что у каждого эксперта есть повторяющиеся оценки: у 1-го их две, у второго - три, у третьего - две группы по две оценки, так же и у четвертого, у пятого - две одинаковые оценки. Отсюда:

Т 1 = 2 3 – 2 = 6 Т 5 = 6

Т 2 = 3 3 – 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

Мы видим, что согласованность мнений экспертов достаточно высокая и можно переходить к следующему этапу исследования – обоснованию и принятию рекомендованной экспертами альтернативы решения.

В противном случае необходимо вернуться к этапам 4-8.

Ранговый коэффициент корреляции характеризует общий характер нелинейной зависимости: возрастание или убывание результативного признака при возрастании факторного. Это показатель тесноты монотонной нелинейной связи.

Назначение сервиса . С помощью данного онлайн-калькулятора производится расчет коэффициента ранговой корреляции Кендэла по всем основным формулам, а также оценка его значимости.

Инструкция . Укажите количество данных (количество строк). Полученное решение сохраняется в файле Word .

Предложенный Кендэлом коэффициент строится на основе отношений типа «больше –меньше», справедливость которых установлена при построении шкал.
Выделим пару объектов и сравним их ранги по одному признаку и по другому. Если по данному признаку ранги образуют прямой порядок (т.е. порядок натурального ряда), то паре приписывается +1, если обратный, то –1. Для выделенной пары соответствующие плюс – минус единицы (по признаку X и по признаку Y) перемножаются. Результат, очевидно, равен +1; если ранги пары обоих признаков расположены в одинаковой последовательности, и –1 , если в обратной.
Если порядки рангов по обоим признакам у всех пар одинаковы, то сумма единиц, приписанных всем парам объектов, максимальна и равна числу пар. Если порядки рангов всех пар обратны, то –C 2 N . В общем случае C 2 N = P + Q, где P – число положительных, а Q – отрицательных единиц, приписанных парам при сопоставлении их рангов по обоим признакам.
Величина называется коэффициентом Кендалла.
Из формулы видно, что коэффициент τ представляет собой разность доли пар объектов, у которых совпадает порядок по обоим признакам (по отношению к числу всех пар) и доли пар объектов, у которых порядок не совпадает .
Например, значение коэффициента 0,60 означает, что у 80% пар порядок объектов совпадает, а у 20% не совпадает (80% + 20% = 100%; 0,80 – 0,20 = 0,60). Т.е. τ можно трактовать как разность вероятностей совпадения и не совпадения порядков по обоим признакам для наугад выбранной пары объектов.
В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким.
Покажем, как упростить вычисления.


Пример . Зависимость между объемом промышленной продукции и инвестициями в основной капитал по 10 областям одного из федеральных округов РФ в 2003 году характеризуется следующими данными:


Вычислите ранговые коэффициенты корреляции Спирмена и Кендэла. Проверить их значимость при α=0,05. Сформулируйте вывод о зависимости между объемом промышленной продукции и инвестициями в основной капитал по рассматриваемым областям РФ.

Решение . Присвоим ранги признаку Y и фактору X.


Упорядочим данные по X.
В ряду Y справа от 3 расположено 7 рангов, превосходящих 3, следовательно, 3 породит в Р слагаемое 7.
Справа от 1 стоят 8 ранга, превосходящих 1 (это 2, 4, 6, 9, 5, 10, 7, 8), т.е. в Р войдет 8 и т.д. В итоге Р = 37 и с использованием формул имеем:

X Y ранг X, d x ранг Y, d y P Q
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


По упрощенным формулам:




где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1-α)/2.
Если |τ| < T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| > T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1-α)/2 = (1 - 0.05)/2 = 0.475

Найдем критическую точку:

Так как τ > T kp - отвергаем нулевую гипотезу; ранговая корреляционная связь между оценками по двум тестам значимая.

Пример . По данным об объеме строительно-монтажных работ, выполненных собственными силами, и численности работающих в 10 строительных компаниях одного из городов РФ, определить зависимость между этими признаками с помощью коэффициента Кендела.

Решение находим с помощью калькулятора .
Присвоим ранги признаку Y и фактору X.
Расположим объекты так, чтобы их ранги по X представили натуральный ряд. Так как оценки, приписываемые каждой паре этого ряда, положительные, значения «+1», входящие в Р, будут порождаться только теми парами, ранги которых по Y образуют прямой порядок.
Их легко подсчитать, сопоставляя последовательно ранги каждого объекта в ряду Y с стальными.
Коэффициент Кендэла .

В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким. Покажем, как упростить вычисления.

или

Решение .
Упорядочим данные по X.
В ряду Y справа от 2 расположено 8 рангов, превосходящих 2, следовательно, 2 породит в Р слагаемое 8.
Справа от 4 стоят 6 ранга, превосходящих 4 (это 7, 5, 6, 8, 9, 10), т.е. в Р войдет 6 и т.д. В итоге Р = 29 и с использованием формул имеем:

X Y ранг X, d x ранг Y, d y P Q
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


По упрощенным формулам:


Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Кендалла при конкурирующей гипотезе Н 1: τ ≠ 0,надо вычислить критическую точку:

где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1 - α)/2.
Если |τ| T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1 - α)/2 = (1 - 0.05)/2 = 0.475
По таблице Лапласа находим z kp = 1.96
Найдем критическую точку:

Так как τ