Статистические гипотезы: ошибки первого и второго рода



Выводы на основе статистических данных часто могут содержать ошибки.

Ошибки при проверке стат гипотез могут быть двух родов. Ошибка первого рода заключается в отрицании основной гипотезы, когда на самом деле она верна. Ошибка второго рода состоит в том, что отрицается конкурирующая гипотеза, когда она верна.

Чтобы лучше понять определения ошибок, проиллюстрируем введенные понятия с помощью аналогии. В больнице врач принимает решение, направлять пациента на операцию, или нет. Его проблему можно переформулировать и так: ему нужно выбрать между основной гипотезой, что операция необходима, и альтернативной гипотезой, утверждающей, что операция не нужна. При этом врач может ошибиться. Допустим, операция нужна, а она не делается. Скажем то же самое в статистических терминах: основная гипотеза верна, но она отвергается. Как ни говори, в этом случае врач делает ошибку первого рода. Если операция не нужна, а она делается, то есть принимается основная гипотеза, когда она не верна, то врач делает ошибку второго рода.

Может ли врач свести частоту (вероятность) ошибок первого рода к нулю? Да, если всегда будет принимать основную гипотезу. В этом случае все пациенты будут направляться на операцию. Чтобы свести к нулю ошибку второго рода, надо вовсе не делать операций. Понятно, что оба крайних варианта неприемлемы. Хотя есть исключения. Например, если мы будем вакцинацию считать операцией (все же укол, введение прививки, это маленькая, но операция), то получается, что врачи действуют по первому сценарию: делать маленькую "превентивную" операцию всем, чтобы в будущем свести ошибку первого рода к нулю.

«Последствия ошибок могут быть различными" – каков смысл этого утверждения в контексте рассмотренного примера? Если пациенту операция не нужна, но она сделана, (ошибка второго рода) это очень неприятно. Если нужна, но не сделана (ошибка первого рода), то возможен и смертельный исход.

Итак, ошибка первого рода опаснее, но полностью избежать ее не удастся. Кстати, это так не только в медицине, при проверке статистических гипотез ситуация такая же.

Уровень значимости

При проверке статистических гипотез ошибку первого рода ограничивают числом, называемым уровень значимости. Исторически сложилось так, что в качестве уровня значимости чаще всего выбирают одно из чисел 0.005, 0.01, 0.05.

Проиллюстрируем предыдущие рассуждения, продолжив рассматривать "медицинский" пример. Задав уровень значимости 0.005, мы указываем врачу, что в среднем на 1000 больных, нуждающихся в операции, он может ошибиться пять раз. Не больше. Если он ошибается реже, то он великий диагност, либо, чаще всего, перестраховщик. Во втором случае, увеличивается доля операций, которые были не нужны  (к увеличению частоты ошибок второго рода).

Вы считаете, что соглашаться на пять смертельных случаев бесчеловечно? Согласны. А сколько можно? К нулю ведь не свести… Один на 10000? Значит, Вы задаете уровень значимости 0.0001, – напоминаем, уровень значимости задаете именно Вы, но чем он меньше, тем чаще Вы будете принимать гипотезу. Подобная перестраховка неизбежно приведет к тому, что чаще будут делаться ненужные операции.

Мощность и ошибка второго рода

Снизить вероятность ошибки второго рода заметно труднее. Как правило, ее можно уменьшить, если увеличить число анализируемых наблюдений. Поэтому так необходимы большие выборки. Методы проверки гипотезы, обладающие таким свойством, называют состоятельными. Статистики добиваются такого результата математическими средствами, разрабатывая специальные алгоритмы проверки гипотезы.  .

Если выборка маленькая (часто в качестве границы между большой и маленькой выборкой берут пороговое значение 30 наблюдений), проверить гипотезу удастся. Платой за малый размер будет неприемлемо большая вероятность ошибки второго рода. Большинство практиков, работающих с маленькими выборками, думают, что смогут преодолеть эту трудность, если будут игнорировать ошибку второго рода, вовсе не обращать внимания на нее. Профессиональные статистики в таких ситуациях часто увеличивают уровень значимости (например, до 0.15 или 0.2), чтобы сделать вероятности ошибок первого и второго рода сопоставимыми.