Коэффициент корреляции, коэффициент Пирсона



Анализ диаграмм рассеяния улучшает понимание явления, выявляются выбросы, облегчается выбор модели и метода дальнейшего анализа. Когда нужен объективный показатель, свидетельствующий о наличии или отсутствии связи между переменными, и измеряющий выраженность этой связи, используют коэффициенты корреляции.

Коэффициент корреляции был предложен как инструмент, с помощью которого можно проверить гипотезу о зависимости и измерить силу зависимости двух переменных. Сразу заметим, что коэффициент корреляции оказался не идеальным инструментом, он пригоден лишь для измерения силы линейной зависимости, но подробности будут изложены чуть ниже.

Если распределение переменных нормальное или несущественно отличается от нормального, применяют коэффициент корреляции Пирсона. Для порядковых (ранговых) переменных или переменных, чье распределение существенно отличается от нормального, используется коэффициент корреляции Спирмана или Кендалла. Имейте в виду, существуют и другие коэффициенты.

Коэффициент корреляции Пирсона будем обозначать cor(x,y), он рассчитывается по формуле:

,                   (1)

 

где xi ,yi наблюдения, элементы выборки,   - средние значения, n – число наблюдений. Заметим, что формула (1) задает эмпирическую версию коэффициента, которая является оценкой теоретического значения.

Начнем с того, что напомним математические свойства коэффициента корреляции, который где x и y – изучаемые переменные.

1.

2. Если x и y независимые переменные, то .

3. Если x и y связаны линейной зависимостью, то есть найдутся a и b такие, что , то . При этом знак в правой части последнего равенства совпадает со знаком a.

4. Если , то x и y связаны линейной зависимостью, то есть найдутся a и b такие, что . При этом знак в правой части последнего равенства совпадает со знаком a.

5. Неверно, что если , то переменные x и y независимы. Важным исключением является случай, когда переменные x и y имеют нормальное распределение.

6. Величина коэффициента корреляции не изменится, если ко всем значениям переменной добавить одно и то же число, или если все значения переменной умножить на одно и то же число, отличное от нуля. Такое свойство называется инвариантностью относительно сдвига и масштаба. Коэффициент корреляции – безразмерная величина, то есть не зависит от единиц, в которых измерены переменные.

На практике коэффициент корреляции используется как некоторый «градусник», который показывает «ноль» в случае независимости переменных (смотри свойства 1 и 5), плюс единицу в случае прямой линейной зависимости переменных и минус единицу в случае обратной линейной зависимости переменных (смотри свойства 3 и 4). Значения коэффициента, находящиеся между нулем и единицей  понимаются (с математической точки зрения необосновано!) так: чем ближе значение коэффициента корреляции к нулю, тем слабее зависимость, чем ближе к (плюс или минус) единице – тем сильнее зависимость. Отметим, что речь идет лишь об интерпретации свойств коэффициента корреляции, при этом аналитик далеко выходит за рамки математически точных утверждений.

 

Важно!

Принято считать, что чем cor(x,y) ближе по модулю к 1, тем ближе связь между анализируемыми переменными к линейной. Если величина cor(x,y)  близка к -1, то связь обратная (С возрастанием переменной х переменная у убывает). Если величина cor(x,y)  близка к +1, то связь прямая (С возрастанием переменной х переменная у возрастает).

 

Обычно задается вопрос, какие значения коэффициента корреляции указывают на сильную зависимость, а какие на слабую. Этот вопрос не имеет ответа. Строгая теория по этому поводу ничего не говорит. Тем не менее, во многих пособиях приводится ответ, но к огорчению новичков, в каждой книге ответ свой! Отчасти это связано с тем, что в разных дисциплинах сложились разные традиции интерпретации коэффициента. Приведем таблицу из книги [Бююль, Цефель]

Таблица 1

Интервал значений

коэффициента корреляции

Интерпретация

0 – 0,2

Очень слабая корреляция

0,2 - 0,5

Слабая корреляция

0,5 – 0,7

Средняя корреляция

0,7 – 0,9

Высокая корреляция

0,9 - 1

Очень высокая корреляция

 

 

Имейте в виду, что значения, приведенные в Таблице 1, могут служить лишь неточными ориентирами. Заметьте, что в таблице рассматривается модуль коэффициента корреляции.