Таблицы сопряженности и проверка зависимости между категориальными переменными



Нужно различать два типа задач. В первом случае проверяется, есть зависимость или нет, а если есть, измеряется степень зависимости. Во втором случае аналитик пытается описать, смоделировать зависимость. Если анализируются две качественные переменные и ставится вопрос о влиянии одной из них на другую, то в первом случае обычно изучают таблицы сопряженности признаков, а во втором - строят регрессионную логит-модель (логит-регрессию).

Рассмотрим критерий Хи-квадрат, который чаще всего применяется в случае, когда обе изучаемые переменные измерены в номинальной или порядковой шкале (часто такие переменные называют качественными). Сразу отметим, что данным способом нельзя установить, какая из двух переменных оказывает влияние (она часто называется независимой), а какая из них подвергается влиянию (и называется зависимой). В простых ситуациях различие переменных определено еще при постановке задачи. Например, то событие, которое произошло раньше, влияет на более позднее, а не наоборот, количество осадков влияет на урожай, а не наоборот. В более сложных ситуациях распознать зависимую и независимую сложно. Вообще говоря, совсем не обязательно, что раз событие «А» произошло после события «В», то оно произошло «по причине В».

В каких ситуациях актуален анализ таблиц сопряженности? В Таблица 22 приведены примеры вопросов, на которые помогает ответить указанный метод.

Постановка
 вопроса

Зависимая
переменная

Независимая
переменная

1. Зависит ли выбор товара покупателями от района их проживания?

Категории товаров

Район проживания

2. Зависит ли выбор товара покупателями от их принадлежности к той или иной возрастной группе?

Категории товаров

Возрастные группы

Анализ таблиц сопряженности состоит из двух этапов:

  1. Составление таблиц сопряженности признаков (иногда их называют перекрестными таблицами).
  2. Проверки гипотезы независимости переменных.