Проверка гипотез при анализе маркетинговых данных



Многие процедуры прикладного статистического анализа включают в себя проверку статистических гипотез.

Проверка статистических гипотез – один из способов отвечать на вопросы, связанные с распределением случайной величины (с распределением генеральной совокупности).
Основное условие применения статистических тестов – задаваемый вопрос должен касаться какой-либо характеристики массового явления.

Второе условие – независимость наблюдений между собой. Например, при проведении опроса, опрашиваемые выбираются случайным образом, и можно предполагать, что их ответы не зависят друг от друга. Из этого правила имеются два исключения:

  • анализ временного ряда, например, в задачах прогнозирования. В этом случае обычно поздние значения зависят от предыдущих.
  • Во-вторых, при повторных наблюдениях одних и тех же объектов.


Третье условие – вопрос должен быть относительно простым и четко сформулированным. Для прикладных статистиков третье ограничение может выглядеть и так: вопрос должен принадлежать списку «допустимых» вопросов.

На практике часто приходится на основе результатов обследований, испытаний и т. д. проверять различные предположения о характеристиках массового явления. Приведем некоторые примеры.

1. В обычных условиях зафиксирован некоторый уровень продаж. Руководство компании ожидает, что в результате рекламной компании уровень продаж увеличился. На основе данных о продажах нужно, во-первых, определить, существенно ли это увеличение, и во-вторых, компенсировало оно затраты на рекламу или нет (т.е. окупились ли затраты на рекламу).
2. При появлении нового варианта упаковки товара, требуется проверить предположение, что товар в новой упаковке имеет в данном регионе больший уровень продаж, чем вариант в старой упаковке.
3. Фирма изучает постоянных покупателей своей продукции, для того, чтобы увеличить их лояльность и количество. В рамках этой задачи аналитик проверяет, зависит ли лояльность потребителя от его пола, возраста, уровня образования. Этот вопрос может быть переформулирован и так: проверить гипотезы о независимости а) уровня лояльности и пола потребителей; б) уровня лояльности и возраста потребителей; в)  уровня лояльности и уровня образования потребителей.


Определение гипотезы

Традиционно статистический анализ данных начинают с того, что вопрос переформулируют так, чтобы ответ на него заключался в выборе между двумя утверждениями. Эти два утверждения называют статистическими гипотезами.

Чаще всего (но не всегда) одна из них утверждает, что предположение верно, другая – что нет. Одну из гипотез называют основной и обозначают, как правило, Н (или Н0), а другую — альтернативной (конкурирующей) и обозначают К (или Н1).

Проверку гипотез на основе выборочных статистических данных называют статистической проверкой гипотез.

В прикладной статистике принято следующее правило: если в рассуждениях не уточняется, о какой гипотезе идет речь, то имеется в виду основная гипотеза.

Вместо того чтобы говорить, «…выбрана основная гипотеза…» или «…выбрана альтернативная гипотеза…», обычно формулируют «…основная гипотеза не отвергнута…» или «основная гипотеза отвергнута…».

Ошибки первого и второго рода

Очевидно, что на основе статистических данных очень трудно, а иногда и невозможно, делать безошибочные выводы.

Ошибки при проверке гипотез могут быть двух родов. Ошибка первого рода состоит в том, что отвергается основная гипотеза, когда на самом деле она верна. Ошибка второго рода состоит в том, что отвергается конкурирующая гипотеза, когда она верна.

Чтобы лучше понять определения ошибок, проиллюстрируем введенные понятия с помощью аналогии. В больнице врач принимает решение, направлять пациента на операцию, или нет. Его проблему можно переформулировать и так: ему нужно выбрать между основной гипотезой, что операция необходима, и альтернативной гипотезой, утверждающей, что операция не нужна. При этом врач может ошибиться. Допустим, операция нужна, а она не делается. Скажем то же самое в статистических терминах: основная гипотеза верна, но она отвергается. Как ни говори, в этом случае врач делает ошибку первого рода. Если операция не нужна, а она делается, то есть принимается основная гипотеза, когда она не верна, то врач делает ошибку второго рода.

Может ли врач свести частоту (вероятность) ошибок первого рода к нулю? Да, если всегда будет принимать основную гипотезу. В этом случае все пациенты будут направляться на операцию. Чтобы свести к нулю ошибку второго рода, надо вовсе не делать операций. Понятно, что оба крайних варианта неприемлемы. Хотя есть исключения. Например, если мы будем вакцинацию считать операцией (все же укол, введение прививки, это маленькая, но операция), то получается, что врачи действуют по первому сценарию: делать маленькую "превентивную" операцию всем, чтобы в будущем свести ошибку первого рода к нулю.

«Последствия ошибок могут быть различными" – каков смысл этого утверждения в контексте рассмотренного примера? Если пациенту операция не нужна, но она сделана, (ошибка второго рода) это очень неприятно. Если нужна, но не сделана (ошибка первого рода), то возможен и смертельный исход.

Итак, ошибка первого рода опаснее, но полностью избежать ее не удастся. Кстати, это так не только в медицине, при проверке статистических гипотез ситуация такая же.


Уровень значимости

В классической теории проверки статистических гипотез ошибку первого рода ограничивают числом, называемым уровень значимости. Исторически сложилось так, что в качестве уровня значимости чаще всего выбирают одно из чисел 0.005, 0.01, 0.05.

Проиллюстрируем предыдущие рассуждения, продолжив рассматривать "медицинский" пример. Задав уровень значимости 0.005, мы указываем врачу, что в среднем на 1000 больных, нуждающихся в операции, он может ошибиться пять раз. Не больше. Если он ошибается реже, то он великий диагност, либо, чаще всего, перестраховщик. Во втором случае, увеличивается доля операций, которые были не нужны  (к увеличению частоты ошибок второго рода).

Вы считаете, что соглашаться на пять смертельных случаев бесчеловечно? Согласны. А сколько можно? К нулю ведь не свести. Один на 10000? Значит, Вы задаете уровень значимости 0.0001, – напоминаем, уровень значимости задаете именно Вы, но чем он меньше, тем чаще Вы будете принимать гипотезу. Подобная перестраховка неизбежно приведет к тому, что чаще будут делаться ненужные операции.



Ошибка второго рода и мощность

Значительно труднее добиться того, чтобы вероятность ошибки второго рода была малой. Как правило, ее можно уменьшить, если увеличить число анализируемых наблюдений. Поэтому так необходимы большие выборки. Методы проверки гипотезы, обладающие таким свойством, называют состоятельными. Статистики добиваются такого результата математическими средствами, разрабатывая специальные алгоритмы проверки гипотезы.

Если выборка маленькая (часто в качестве границы между большой и маленькой выборкой берут пороговое значение 30 наблюдений), проверить гипотезу удастся. Платой за малый размер будет неприемлемо большая вероятность ошибки второго рода. Большинство практиков, работающих с маленькими выборками, думают, что смогут преодолеть эту трудность, если будут игнорировать ошибку второго рода, вовсе не обращать внимания на нее. Профессиональные статистики в таких ситуациях часто увеличивают уровень значимости (например, до 0.15 или 0.2), чтобы сделать вероятности ошибок первого и второго рода сопоставимыми.


Алгоритм проверки статистических гипотез (типичный случай)
1. Имеются n наблюдений Х1,Х2,…Хn, то есть n  чисел, полученных, например, в результате опроса.
2. Задан уровень значимости ?. Обычно это одно из чисел 0.005, 0.01, 0.05.
3. Задан статистический критерий, то есть функция от наблюдений  . Значение этой функции называются p-значение (p-value). В пакете SPSS оно называется Significance, сокращенно записывается как Sig. и часто переводится как значимость.
4.  Проверяются все условия, при которых критерий будет работать.
5.  Если p<?, то гипотеза отвергается, если p>?  - не отвергается. Все так просто? В теории да, не практике нет. Выше описана схема алгоритма в самом общем виде.


Прокомментируем приведенный алгоритм.


Вообще говоря, наблюдения   не обязательно являются числами, а могут быть, например, векторами. Но начинающему трудно справиться с такими случаями, и ему лучше обратиться к профессиональному статистику.  

При выборе "правильного" числа из списка 0.005, 0.01, 0.05 важно иметь в виду, что с точки зрения статистики "правильного" числа не существует. Необходимо понимание конкретной задачи, оно диктует выбор. Если Вам кажется, что конкретная задача ничего не диктует, предлагаем практический совет, основанный на здравом смысле. Просмотрите статьи или книги по Вашей дисциплине, в которых изучаются сходные темы, и заимствуйте из них наиболее популярное значение уровня значимости.

Выбор того статистического критерия, который подходит для данной задачи – важная и сложная задача. Сначала надо узнать название нужного критерия. Большинство начинающих консультируется у опытных знакомых или на соответствующем форуме в Интернете. Описание критерия обычно находится далее в литературе: учебниках по математической статистике или справочниках. Главный ответ, который надо получить из книги – действительно ли предложенный Вам критерий отвечает на интересующий Вас вопрос. После того, как критерий выбран, надо убедиться, что изучаемые данные удовлетворяют тем требованиям, при которых позволительно применять данный критерий.

Иногда важна еще одна функция, которая называется статистикой критерия или тестовой статистикой. В литературе чаще всего обсуждается именно она, не надо путать ее с р-значением. Изредка она важна сама по себе  (например, коэффициент корреляции), в таких конкретных случаях мы будем ее указывать. Обсудим интерпретацию статистики критерия.

Статистика критерия измеряет степень соответствия поведения данных и гипотезы, она "мала", если данные ведут себя согласно с гипотезой, в соответствии с тем, как они «должны» вести себя при справедливости гипотезы. Наоборот, статистика критерия "велика", если данные не соответствуют статистическим  закономерностям,  заданными гипотезой.

Какие именно условия надо проверять, то есть, при каких ограничениях применим статистический критерий, указывается вместе с описанием самого критерия. Например, применение t – критерия Стьюдента или проверка гипотезы независимости с помощью критерия Пирсона требует проверки близости распределения переменных к нормальному.