Независимые и парные выборки



При анализе данных экономического характера исследователя часто интересуют средние характеристики выборок: средний возраст покупателей, величина среднего чека, средний доход клиента и т.д. Однако среднее значение – не всегда лучшая характеристика выборки. В прикладной статистике при анализе данных различных выборок вместо средних значений изучают  центры распределений.

Под центром распределения понимается то единственное число, которое описывало, характеризовало бы выборку. В качестве центра чаще всего используют среднее арифметическое, медиану или усеченное среднее. Иногда центр распределения интерпретируют как типичное наблюдение выборки.

Если распределение хотя бы одной из выборок существенно отличается от нормального, в качестве центра предлагается использовать медиану. В остальных случаях, то есть если  распределение каждой выборки можно считать нормальным или несущественно отличающимся от нормального, в качестве центра предлагается использовать среднее арифметическое.

Если в качестве центров распределения выбрана медиана,  их сравнивают с помощью критерия Манна – Уитни или критерия Вилкоксона.

Если центром распределения выбрано среднее арифметическое, центры сравниваются с помощью одной из версий  t-критерия Стьюдента.

При сравнении центров распределений с помощью пакета SPSS важно уметь отличать независимые и парные выборки, т.к. для парных и независимых выборок применяются разные процедуры.

В случае парных выборок имеются пары наблюдений (измерений) одного и того же объекта. Два раза измеряется одно и то же. При этом данные должны быть организованы в виде двух столбцов. В одном столбце содержатся «первые» измерение каждого объекта, во втором столбце - «второе» измерение пары.

Рассмотрим набор данных (см. рис. 1), в котором приведены характеристики работы менеджеров до и после обучения. Чтобы выяснить, дало обучение какой-то эффект или нет и чтобы оценить влияние обучения, сравниваются процент неудачных переговоров до обучения (переменная неуд_до) и после обучения (переменная неуд_пос). В этом случае анализируются парные выборки, ведь имеются две характеристики одного и того же объекта, в данном примере – менеджера по продажам, эти характеристики наблюдались два раза, до обучения и после него.

Рис. 1.  Менеджеры

В случае независимых выборок каждое наблюдение соответствует отдельному объекту, т.е. измеряются разные объекты. Принадлежность объектов выборкам определяется по значениям дополнительной переменной.

Рассмотрим набор данных, в котором содержится информация о покупателях магазина. При исследовании фиксировалось время, проведенное в магазине до покупки, сумма, потраченная покупателем и пол покупателя (Рис. 2).

парные выборки

Рис. 2. Покупатели

Изучая время, проведенное в магазине женщинами (первая выборка) и время, проведенное в магазине мужчинами (вторая выборка), то замечаем, что наблюдения из каждой выборки находятся в одном и том же столбце, который в примере называется «время». Это отличает независимые выборки от парных выборок. В случае парных выборок каждая выборка находится в своем столбце. Далее заметим, что принадлежность наблюдения к выборке определяется значением, находящимся в дополнительном столбце. В рассматриваемом примере это переменная «пол».

Итак, если наблюдения из двух выборок находятся в одном столбце, то выборки независимые, если в разных - то выборки парные.