Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3662 / 736 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 7:

Проверка гипотез

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >
Аннотация: Описывается проверка гипотез методом моментов, по совокупности малых выборок, проблема множественных проверок. Рассматривается проблема неустойчивости параметрических методов отбраковки выбросов. Уделено внимание предельной теории непараметрических критериев.
Ключевые слова: оценивание, дисперсия, коэффициент вариации, ПО, функция, универсальные методы, мощность критерия, оценка максимального правдоподобия, эмпирическая функция, параметр, асимметрия, случайная величина, нормальное распределение, математическим ожиданием, среднее абсолютное отклонение, коэффициент асимметрии, выборочной средней, объем выборки, значение, гипотеза, показатели надежности, критическая область, Квантиль, грубые погрешности, робастность, вероятность, решающее правило, статистический критерий, выборка, значимость критерия, отрезок, верхняя граница, определение функции, вывод, расстояние, неравенство, анализ, предметной области, пространство, интегрирование, мера, статистика, действительное число, сходимость, доказательство, место, разбиение, аппроксимация, обобщение, интеграл, определение, предел, Достаточным условием интегрируемости, доказательство теорем, атом, метрическое пространство, норма, длина, множества, функциональное пространство, статистические методы, контроль, контролируемые параметры, единица, входной, Произведение, вектор, связь, коэффициенты, мощность, мнимая единица, индекс, базовая, последовательный анализ, адекватность модели, автоматизированная система управления, слежение, контрольные карты, представление, однородность, конечные, моделирование

7.1. Метод моментов проверки гипотез

К методу моментов относят все статистические процедуры, основанные на использовании выборочных моментов и функций от них. Метод моментов оценивания параметров распределения рассмотрен в гл.6. В непараметрической статистике на основе выборочных моментов проводится точечное и интервальное оценивание характеристик распределения, таких, как математическое ожидание, дисперсия, среднее квадратическое отклонение, коэффициент вариации ( "Статистический анализ числовых величин" ). Для проверки гипотез в непараметрической статистике также используется метод моментов. Примером является критерий Крамера-Уэлча, предназначенный для проверки равенства математических ожиданий по двум независимым выборкам ( "Статистический анализ числовых величин" ).

В практике применения статистических методов (согласно классическим схемам) довольно часто возникает необходимость проверки гипотезы о том, что функция распределения результатов наблюдений X_1,X_2,...,X_n принадлежит параметрическому семейству распределений \{F(x,\theta),\theta\in\Theta\}, где \Theta\subseteq R^k. Как проверять эту гипотезу?

Давно разработан универсальный метод - критерий минимума хи-квадрат [ 9 ]. Однако у него имеется существенный недостаток - необходимость группирования наблюдений, что приводит к потере информации. Как хорошо известно [ [ 7.16 ] ], это приводит к существенному снижению мощности критерия минимума хи-квадрат по сравнению с критериями типа Колмогорова и омега-квадрат. Кроме того, нахождение минимума статистики хи-квадрат - достаточно сложная вычислительная процедура. Поэтому иногда вместо оценок, получаемых при указанной оптимизации, подставляют оценки максимального правдоподобия или какие-либо еще. Такая замена приводит к тому, что распределение рассматриваемой статистики существенно отличается от классического, причем различие не исчезает при росте объема выборки. Предложенная член-корр. АН СССР Л.Н. Большевым и проф. М.С. Никулиным [ [ 7.3 ] ] модификация критерия минимума хи-квадрат не снимает недостатков, связанных с группированием и необходимостью существенной вычислительной работы.

Общий подход, основанный на дистанционном методе, предложен Дж. Вольфовицем (США) в 1950-х годах. Согласно этому методу следует основываться на том или ином расстоянии между эмпирической функцией распределения и параметрическим семейством распределений (как многообразием в пространстве всех функций распределения). Конкретная реализация этого подхода приводит к критериям типа Колмогорова и омега-квадрат. Однако для каждого конкретного параметрического семейства приходится разрабатывать самостоятельную теорию и рассчитывать только ему соответствующие предельные и точные распределения [ [ 7.11 ] , [ 7.20 ] ]. Предельные распределения найдены лишь для нескольких семейств, а о точных почти ничего не известно. До сих пор часто совершают ошибку, применяя для произвольных семейств предельные распределения, найденные для проверки согласия с фиксированным распределением (см. подробности в "Основы вероятностно-статистических методов описания неопределенностей" ).

Отметим, что критерии минимума хи-квадрат и аналогичные им не являются состоятельными, поскольку вероятности попадания в области группирования не задают однозначно функцию распределения. С этим недостатком можно бороться, увеличивая число интервалов группирования вместе с ростом объема выборки, однако на этом пути еще не выработаны рекомендации, пригодные для широкого практического использования. Критерии типа Колмогорова и омега-квадрат - состоятельные, т.е. любую альтернативную функцию распределения, не входящую в рассматриваемое параметрическое семейство, они отвергают с вероятностью, стремящейся к 1 при росте объема выборки.

Для конкретности обсудим проверку согласия результатов наблюдений с трехпараметрическим семейством гамма-распределений с плотностями

f(x;a,b,c)=
\left\{
\begin{aligned}
&\frac{1}{\Gamma(a)}(x-c)^{a-1}b^{-a}\exp\left[-\frac{x-c}{b}\right],x\ge c, \\
&0,\;x<c.
\end{aligned}
\right. ( 1)

Здесь a>2 - параметр формы, b>0 - параметр масштаба и c - параметр сдвига, \Gamma(a) - одна из используемых в математике специальных функций, так называемая "гамма-функция". Критерий минимума хи-квадрат имеет указанные выше недостатки. Критерии типа Колмогорова и омега-квадрат для этого случая не разработаны.

В подобных ситуациях целесообразно строить критерии согласия на основе функций от выборочных моментов, т.е. пользоваться методом моментов. Для оценивания параметров метод моментов хорошо известен и обычно рассматривается в учебной литературе по теории вероятностей и математической статистике. Реализацией метода моментов для проверки нормальности являются известные критерии асимметрии и эксцесса [ [ 2.1 ]

Пример 1. Если случайная величина X имеет нормальное распределение с математическим ожиданием a и дисперсией \sigma^2, то, как известно [ [ 2.1 ] ],

=\frac{M|X-a|}{\sigma}=\sqrt{\frac{2}{\pi}}=0,79788,\;
\gamma_1=\frac{M(X-a)^3}{\sigma^3}=0,\;
\beta_1=\frac{M(X-a)^4}{\sigma^4}=3,
где \delta - нормированное среднее абсолютное отклонение, \gamma_1 - коэффициент асимметрии и (\beta_1 - 3) - коэффициент эксцесса. Таким образом, если выборочные оценки указанных моментных отношений существенно отличаются от соответствующих теоретических значений, то следует признать, что распределение результатов наблюдений отлично от нормального. Так как указанные выше значения моментных отношений могут приниматься и для распределений, отличных от нормальных, то близость выборочных значений к только что выписанным не обязательно свидетельствует о нормальности распределения результатов наблюдений. Критерии, полученные методом моментов, служат не столько для проверки нормальности, сколько для выявления отклонений распределения от нормального, или, точнее, для проверки гипотез \delta\ne\sqrt{2/\pi}, \gamma_1\ne 0, \beta_1\ne 3. Рассматриваемые критерии построены на основе выборочных моментных отношений:
d=\frac{1}{ns}\sum_{k=1}^n|X_k-\overline{X}|,\;g_1=\frac{1}{ns^3}\sum_{k=1}^n(X_k-\overline{X})^3,\;
b_1=\frac{1}{ns^4}\sum_{k=1}^n(X_k-\overline{X})^4.

Здесь, как обычно, \overline{X} - выборочное среднее арифметическое и s^2 - выборочная дисперсия, соответственно, s - выборочное среднее квадратическое отклонение. Как вытекает из результатов "Теоретическая база прикладной статистики" , все три статистики являются асимптотически нормальными. Выражения для параметров их асимптотических распределений приведены в [ [ 2.1 ] ]. Процентные точки распределений рассматриваемых выборочных моментных отношений при конечных объемах выборки найдены в предположении нормальности результатов наблюдений [ [ 2.1 ] ].

Как и критерии минимума хи-квадрат, критерии метода моментов никогда не являются состоятельными. Однако они, как и в случае критериев асимметрии и эксцесса, позволяют в ряде случаев отвергнуть гипотезу согласия. Использование несостоятельных критериев часто встречается в прикладной статистике. Отметим, например, что применение критерия Вилкоксона для проверки гипотезы однородности двух выборок широко распространено, хотя против общей альтернативы он является несостоятельным (см. "Статистический анализ числовых величин" ).

Критерии метода моментов основаны на использовании функций от выборочных моментов, имеющих асимптотически нормальные распределения, параметры которых легко могут быть вычислены по методике, описанной в "Теоретическая база прикладной статистики" . Метод моментов по сравнению с другими методами проверки согласия требует существенно меньше вычислений (число операций пропорционально объему выборки). Поэтому он может быть рекомендован для использования при проверке согласия с семействами распределений, для которых не разработаны более совершенные методы, а также в качестве быстрого (экспрессного) метода. Что же касается хорошо изученных семейств, например, нормального, то основанные на использовании моментов критерии асимметрии и эксцесса применять для проверки нормальности нецелесообразно. Судя по специальным исследованиям, следует рекомендовать критерий W Шапиро-Уилка.

Продемонстрируем применение метода моментов на примере проверки гипотезы согласия с двухпараметрическим семейством гамма-распределений без сдвига, т.е. выделяемого из семейства (1) условием c=0. Поскольку для трехпараметрического семейства гамма-распределений (1)

M(X)=ab+c,D(X)=ab^2,\mu_3=M(X-M(X))^3=2ab^3,
то при справедливости гипотезы H_0: c=0 выполнено соотношение
\frac{M(X)\mu_3}{2\sigma^4}-1=0. ( 2)

Для специалистов по техническим наукам большое значение имеет альтернативная гипотеза

H_1^c>0.

В частности, она связана с дискуссией о выборе нормируемых показателей надежности технических устройств. Альтернативная гипотеза соответствует предположению, что в течение некоторого времени (до момента c>0 ) отказы невозможны, а нулевая - связана с отрицанием этого предположения и признанием того, что отказы возможны в любой момент.

При справедливости альтернативной гипотезы

\frac{M(X)\mu_3}{2\sigma^4}-1=\frac{c}{ab}>0,
поэтому для проверки гипотезы согласия в рассматриваемой постановке целесообразно использовать критерий со статистикой
Z=\frac{\overline{X}m_3}{2s^4}-1.

С помощью описанной в "Теоретическая база прикладной статистики" методики вычисления предельного распределения функции от выборочных моментов можно установить, что при n\rightarrow\infty распределение статистики \sqrt{n}Z сходится к нормальному, причем при справедливости нулевой гипотезы, т.е. соотношения (2), асимптотическое распределение имеет нулевое математическое ожидание и дисперсию

\frac{1}{2a}(3a^2+13a+10). ( 3)

Поскольку параметр формы a неизвестен статистику, необходимо в выражении (3) заменить \alpha на его состоятельную оценку, например, на оценку метода моментов (см. "Оценивание" )

a*=\frac{\left(\overline{X}\right)^2}{s^2}.

Рассмотрим критерий с критической областью вида

\left\{
Z:Z>u(1-\alpha)\sqrt{\frac{3(a^*)^2+13a^*+10}{2a^*n}}
\right\}, ( 4)
где u(1-\alpha) - квантиль порядка 1-\alpha стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. При n\rightarrow\infty уровень значимости этого критерия стремится к \alpha.

Если альтернативная гипотеза является двусторонней, т.е. H'_1:x\ne 0, то аналогично строится двусторонняя критическая область.

Критерий (4) состоятелен против альтернативы H1: c > 0, а также против непараметрической альтернативы

\frac{M(X)\mu_3}{2\sigma^4}>1,
в которой не предполагается, что функция распределения элементов выборки имеет гамма-распределение (1) с какими-либо конкретными значениями параметров, но не является состоятельным против общей альтернативы.

Пример 2. Применим критерий (4) для проверки согласия с гамма-распределением при c=0, т.е. с двухпараметрическим семейством, данных о наработке n = 50 резцов до предельного состояния (в часах), приведенных в табл.6.2 в 6.1.

Для рассматриваемых данных \overline{X} = 57,88, s^2 = 663,00, выборочный третий центральный момент m_3 = 14927,91, откуда Z = - 0,01719. При этом a^* = 5,05, и потому

\sqrt{\frac{3(a^*)^2+13a^*+10}{2a^*n}}=0,549.

Следовательно, гипотеза согласия рассматриваемых данных с двухпараметрическим гамма-распределением не отвергается на любом из обычно используемых уровней значимости, как для односторонней критической области, так и для двухсторонней.

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >