Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 4080 / 1033 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 12:

Статистика интервальных данных

12.3. Интервальные данные в задачах проверки гипотез

С позиций статистики интервальных данных целесообразно изучить все практически используемые процедуры прикладной математической статистики, установить соответствующие нотны и рациональные объемы выборок. Это позволит устранить разрыв между математическими схемами прикладной статистики и реальностью влияния погрешностей наблюдений на свойства статистических процедур. Статистика интервальных данных - часть теории устойчивых статистических процедур, развитой в монографии [ [ 1.15 ] ]. Часть, более адекватная реальной статистической практике, чем некоторые другие постановки, например, с засорением нормального распределения большими выбросами.

Рассмотрим подходы статистики интервальных данных в задачах проверки статистических гипотез. Пусть принятие решения основано на сравнении рассчитанного по выборке значения статистики критерия f=f(y_1,y_2,...,y_n) с граничным значением C: если f>C, то гипотеза отвергается, если же f\le C, то принимается. С учетом погрешностей измерений выборочное значение статистики критерия может принимать любое значение в интервале [f(y)-N_f(y);\;f(y)+N_f(y)]. Это означает, что "истинное" значение порога, соответствующее реально используемому критерию, находится между C-N_f(y) и C+N_f(y), а потому уровень значимости описанного правила (критерия) лежит между 1-P(C+N_f(y)) и 1-P(C-N_f(y)), где P(Z)=P(f^lt;Z).

Пример 1. Пусть x_1,x_2,...,x_n - выборка из нормального распределения с математическим ожиданием a и единичной дисперсией. Необходимо проверить гипотезу H_0:a=0 при альтернативе H_0:a\ne 0

Как известно из любого учебного курса математической статистики, следует использовать статистику f=\sqrt{n}|\overline{y}| и порог C=\Phi(1-\alpha/2), где \alpha - уровень значимости, \Phi(\bullet) - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. В частности, C=1,96 при \alpha=0,05.

При ограничениях (1) на абсолютную погрешность N_f(y)=\sqrt{n}\Delta. Например, если \Delta = 0,1, а n = 100, то N_f(y) = 1,0. Это означает, что истинное значение порога лежит между 0,96 и 2,96, а истинный уровень значимости - между 0,003 и 0,34. Можно сделать и другой вывод: нулевую гипотезу H_0 допустимо отклонить на уровне значимости 0,05 лишь тогда, когда f > 2,96.

Если же n = 400 при \Delta = 0,1, то N_f(y)=2,0 и C-N_f(y)=-0,04, в то время как C+N_f(y)=3,96. Таким образом, даже в случае x=0 гипотеза H_0 может быть отвергнута только из-за погрешностей измерений результатов наблюдений.

Вернемся к общему случаю проверки гипотез. С учетом погрешностей измерений граничное значение C_{\alpha} в статистике интервальных данных целесообразно заменить на C_{\alpha}+N_f(y). Такая замена дает гарантию, что вероятность отклонения нулевой гипотезы H_0, когда она верна, не более \alpha. При проверке гипотез аналогом статистической погрешности, рассмотренной выше в задачах оценивания, является C_{\alpha}. Суммарная погрешность имеет вид C_{\alpha}+N_f(y). Исходя из принципа уравнивания погрешностей [ [ 1.15 ] ], целесообразно определять рациональный объем выборки из условия

C_{\alpha}=N_f(y)

Если f=|f_1|, где f_1 при справедливости H_0 имеет асимптотически нормальное распределение с математическим ожиданием 0 и дисперсией \sigma_2/n то

C_{\alpha}=u\left(1-\frac{\alpha}{2}\right)\frac{\sigma}{\sqrt{n}} ( 47)
при больших n, где u(1-\alpha/2) - квантиль порядка 1-\alpha/2 стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Из (47) вытекает, что в рассматриваемом случае
n_{rat}=\frac{3,84}{\Delta^2}=384

Пример 2. Рассмотрим статистику одновыборочного критерия Стьюдента

t=\sqrt{n}\frac{\overline(y)}{s(y)}=\frac{\sqrt{n}}{v},
где v - выборочный коэффициент вариации. Тогда с точностью до бесконечно малых более высокого порядка нотна для t имеет вид
N_t(y)=\frac{\sqrt{n}}{v^2}N_v(y),
где N_v(y) - рассмотренная ранее нотна для выборочного коэффициента вариации. Поскольку распределение статистики Стьюдента t сходится к стандартному нормальному, то небольшое изменение предыдущих рассуждений дает
n_{rat}=\frac{v^4u^2(1-\alpha/2)}{N_v^2(y)}.

Пример 3. Рассмотрим двухвыборочный критерий Смирнова, предназначенный для проверки однородности (совпадения) функций распределения двух независимых выборок [ [ 12.44 ] ]. Статистика этого критерия имеет вид

D_{mn}=\sup_x|F_m(x)-G_n(x)|,
где F_m(x) - эмпирическая функция распределения, построенная по первой выборке объема m, извлеченной из генеральной совокупности с функцией распределения F(x), а G_n(x) - эмпирическая функция распределения, построенная по второй выборке объема n, извлеченной из генеральной совокупности с функцией распределения G(x). Нулевая гипотеза имеет вид H_0:F(x)\equiv G(x), альтернативная состоит в ее отрицании: H_1:F(x)\ne G(x) при некотором x. Значение статистики сравнивают с порогом D(\alpha,m,n) зависящим от уровня значимости \alpha и объемов выборок m и n. Если значение статистики не превосходит порога, то принимают нулевую гипотезу, если больше порога - альтернативную. Пороговые значения D(\alpha,m,n) берут из таблиц [ [ 2.1 ] ]. Описанный критерий иногда неправильно называют критерием Колмогорова-Смирнова. История вопроса описана в [ [ 12.34 ] ].

При ограничениях (1) на абсолютные погрешности и справедливости нулевой гипотезы H_0:F(x)\equiv G(x) нотна имеет вид (при больших объемах выборок)

N_D=\sup_x|F(x+\Delta)-F(x-\Delta)|.

Если F(x)=G(x)=x при 0\le x\le 1, то N_D=2\Delta. С помощью условия C_\alpha=N_f(y) при уровне значимости \alpha=0,05 и достаточно больших объемах выборок (т.е. используя асимптотическое выражение для порога согласно [ [ 2.1 ] ]) получаем, что выборки имеет смысл увеличивать, если

\frac{mn}{m+n}\le\frac{0,46}{\Delta^2}.

Правая часть этой формулы при \Delta=0,1 равна 46. Если m = n, то последнее неравенство переходит в n\le 92.

Теоретические результаты в области статистических методов входят в практику через алгоритмы расчетов, воплощенные в программные средства (пакеты программ, диалоговые системы). Ввод данных в современной статистической программной системе должен содержать запросы о погрешностях результатов измерений. На основе ответов на эти запросы вычисляются нотны рассматриваемых статистик, а затем - доверительные интервалы при оценивании, разброс уровней значимости при проверке гипотез, рациональные объемы выборок. Необходимо использовать систему алгоритмов и программ статистики интервальных данных, "параллельную" подобным системам для классической математической статистики.

Анастасия Маркова
Анастасия Маркова

Здравствуйте!

4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1.

Сегодня вижу, что я вне курса! Почему так произошло?