Нормальное распределение, Критерии Шапиро-Уилка и Колмогорова-Смирнова



Проблема формулируется следующим образом: Можно ли считать, что случайная величина имеет нормальное распределение?

Сформулируем основную и альтернативную гипотезы.

Гипотеза: Случайная величина имеет нормальное распределение, значения параметров распределения заранее не известны. Альтернативная гипотеза: Распределение случайной величины отличается от нормального.

Параметрами распределения обычно являются математическое ожидание и дисперсия. Иногда вместо дисперсии рассматривают корень из нее, то есть стандартное отклонение. Для проверки гипотезы предлагается использовать один из двух критериев: либо Колмогорова-Смирнова (с поправкой Лилиефорса) или Шапиро-Уилка. При этом если анализируется меньше 60 наблюдений, рекомендуется использовать критерий Шапиро-Уилка, если больше 60, то критерий Колмогорова-Смирнова. Правило не надо абсолютизировать, число 60 только лишь ориентир. Приведенное правило позволяет уменьшить субъективизм при выборе статистического критерия. Если у Вас 65 наблюдений, и хочется применить критерий Шапиро-Уилка, применяйте, это не будет ошибкой. С другой стороны, имея 30 наблюдений, нехорошо применять критерий Колмогорова-Смирнова.

Поясним, откуда появилось такое правило. Оно появилось в результате сравнения вероятностей ошибок второго рода. Для «маленьких» выборок эта ошибка меньше у критерия Шапиро-Вилка, для больших – у критерия Колмогорова-Смирнова. При этом в маленьких выборках меньше 60 наблюдений, в больших – больше 60.

В рамках этой же проблемы нужно обсудить и такой вопрос: допустим известно, что распределение случайной величины не нормальное. В каком случае отклонение от нормальности не существенное?

Данные методы работают не только когда переменные имеют нормальное распределение, но и когда, как говорят, «распределение данных несущественно отличается от нормального».

Итак, рассмотрим ситуацию, когда гипотеза о нормальности распределения изучаемой переменной отвергнута с помощью статистического критерия. Научимся отличать ситуации, когда отклонения от нормальности распределения несущественны для наших целей. Для этого изучают  гистограмму. Предлагается искать на графике три вида отклонений, которые считаются существенными. Это либо наличие выбросов в данных, либо явная асимметрия гистограммы или очень сильное отклонение формы гистограммы от колоколообразной формы.

Порядок следования характеристик в предыдущем списке отражает их важность. Рекомендуется строго относиться к присутствию выбросов, последствия таких отклонений наиболее пагубны, снисходительно к отклонениям от симметрии. Наше отношение к колоколообразной форме гистограммы зависит от числа наблюдений. Если имеется меньше 30 наблюдений, наше отношение в высшей степени либерально, если число наблюдений находится между 30 и 150, мы относимся к отклонениям снисходительно, если имеется больше 150 наблюдений – строго.