Дисперсионный анализ, типы и примеры



Целью дисперсионного анализа является исследование влияния нескольких номинальных переменных на количественные переменные.

Примеры вопросов, ответы на которые дает дисперсионный анализ, приведены в таблице.

Примеры проблем, решаемых с помощью дисперсионного анализа

  1.  

Владелец кинотеатра предлагает несколько форм знакомства зрителей с кинопрограммой. Какое влияние имеют они на число посетителей кинотеатра?

  1.  

Какое влияние оказывают два разных маркетинговых инструмента изолированно и вместе на целевую переменную? Производитель парфюмерии предполагает, что важное влияние на сбыт оказывают марка и канал сбыта. Поэтому он проверил три различные марки на двух каналах сбыта.

  1.  

Влияет ли на восприятие потребителей форма упаковки мыла? Испытуемых просили указать на трех шкалах рейтинг привлекательности упаковки, общую оценку и их готовность купить мыло

Дисперсионный анализ применяется, когда независимыми переменными являются номинальные переменные, зависимой переменной – количественная переменная. Независимые переменные обозначаются как факторы, их единичное выражение как уровень фактора.

Типы дисперсионного анализа отличают по числу факторов. Следующая таблица дает представление об этих типах.

Типы вариационного анализа

Число зависимых переменных

Число независимых
 переменных

Обозначение  метода

1

1

Однофакторный дисперсионный

1

2

Двухфакторный дисперсионный

1

3

Трехфакторный дисперсионный

минимум 2

Один или более

Многомерный дисперсионный анализ

Однофакторный дисперсионный анализ

Однофакторный дисперсионный анализ устанавливает, значимо ли различаются средние значения нескольких независимых выборок.

Заметим, что дисперсионный анализ проводится при следующих допущениях:

  1. Набор данных состоит из k случайных выборок из k генеральных совокупностей.
  2. Все генеральные совокупности имеют нормальное распределение и одинаковые стандартные отклонения.

Пример. Рассмотрим данные "Сбыт маргарина". В нем приведены данные об объемах продаж маргарина,

Директор сети супермаркетов хочет знать, влияет ли на сбыт маргарина различное размещение продукта в супермаркете. В одном из супермаркетов маргарин расположен на так называемых "нормальных полках", в другом – в варианте "парного размещения", в третьем – в "холодильнике". Предполагается, что все три супермаркета находятся в одинаковых условиях (расположение, близость конкурентов и т.д.).

Можно предположить, что если размещение товара не влияет на объем сбыта, то средние значения объемов сбыта маргарина для каждого из варианта размещений будут приблизительно равны. Следующая таблица показывает результаты трех выборок. В каждом случае эксперимент продолжался одно и то же время, в течение 1000 кассовых операций.

Сбыт маргарина за 1000 кассовых операций в
 трех супермаркетах в зависимости от размещения в кг

Супермаркет

День 1

День 2

День 3

День 4

День 5

Супермаркет 1
 "нормальные полки"

47

39

40

46

45

Супермаркет 2
 "парное размещение"

68

65

63

59

67

Супермаркет 3 "холодильник"

59

50

51

48

53

 

Рассчитаем средние значения объемов сбыта для каждого супермаркета

Средние значения сбыта маргарина в трех супермаркетах

Супермаркет

Среднее значение сбыта
 маргарина
для супермаркета

Супермаркет 1 "нормальные полки"

y1 = 43,4

Супермаркет 2 "парное размещение"

y2 = 64,4

Супермаркет 3 "холодильник"

y3 = 52,2

Общее среднее значение

y = 53,3

 

В таблице показаны средние значения сбыта маргарина для каждого размещения. Величина рассеивания для каждого супермаркета объясняется не размещением продукта, а другими влияющими факторами. Будем предполагать, что внешние влияющие факторы в супермаркетах одинаковы.

Дисперсионный анализ определяет, является ли различие в рассчитанных средних значениях случайным или нет. Другими словами, он определяет, объясняется ли разница в средних значениях размещением товара или какими-то случайными внешними факторами.

Строго говоря, при однофакторном дисперсионном анализе выдвигаются две гипотезы:

Нулевая гипотеза Н0 для F-теста утверждает, что k генеральных совокупностей имеют одно и то же среднее значение. В свою очередь, из этого будет следовать, что выборки идентичны. (В нашем примере это можно трактовать следующим образом: расположение товара не влияет на его объем сбыта.)

Альтернативная гипотеза Н1 утверждает, что средние не все равны между собой, т.е. по крайней мере у двух совокупностей средние различаются. (В нашем примере альтернативная гипотеза утверждает, что средние значения объемов продаж различаются не случайно, из чего следует, что расположение товара влияет на его объем сбыта).