Здравствуйте! 4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1. Сегодня вижу, что я вне курса! Почему так произошло? |
Статистический анализ числовых величин
8.3. Двухвыборочный критерий Вилкоксона
Покажем (и это - основной результат настоящего параграфа), что двухвыборочный критерий Вилкоксона (в литературе его называют также критерием Манна-Уитни) предназначен для проверки гипотезы
![H_0:P(X<Y)=1/2,](/sites/default/files/tex_cache/7b314e7edba701f7de288855c0163ff8.png)
![X](/sites/default/files/tex_cache/02129bb861061d1a052c592e2dc6b383.png)
![Y](/sites/default/files/tex_cache/57cec4137b614c87cb4e24a3d003a3e0.png)
В описанной выше вероятностной модели двух независимых выборок без ограничения общности можно считать, что объем первой из них не превосходит объема второй, , в противном случае выборки можно поменять местами. Обычно предполагается, что функции
и
непрерывны и строго возрастают. Из непрерывности этих функций следует, что с вероятностью 1 все
результатов наблюдений различны. В реальных эконометрических данных иногда встречаются совпадения, но сам факт их наличия - свидетельство нарушений предпосылок только что описанной базовой математической модели.
Статистика двухвыборочного критерия Вилкоксона определяется следующим образом. Все элементы объединенной выборки
упорядочиваются в порядке возрастания. Элементы первой выборки
занимают в общем вариационном ряду места с номерами
, другими словами, имеют ранги
. Тогда статистика Вилкоксона - это сумма рангов элементов первой выборки
![S=R_1, R_2, ..., R_m.](/sites/default/files/tex_cache/ae8bbcfb8c6635a8179cce3d30f7ddac.png)
Статистика Манна-Уитни определяется как число пар
таких, что
среди всех
пар, в которых первый элемент - из первой выборки, а второй - из второй. Как известно [
[
8.3
]
, с.160],
![U=mn+m(m+1)/2-S.](/sites/default/files/tex_cache/939078ae8c115d4c4d86f059ef00d75e.png)
Поскольку и
линейно связаны, то часто говорят не о двух критериях - Вилкоксона и Манна-Уитни, а об одном - критерии Вилкоксона (Манна-Уитни).
Критерий Вилкоксона - один из самых известных инструментов непараметрической статистики (наряду со статистиками типа Колмогорова-Смирнова и коэффициентами ранговой корреляции). Свойствам этого критерия и таблицам его критических значений уделяется место во многих монографиях по математической и прикладной статистике (см., например, [ [ 2.1 ] , [ 8.3 ] , [ 8.11 ] ]).
Однако в литературе имеются и неточные утверждения относительно возможностей критерия Вилкоксона. Так, одни полагают, что с его помощью можно обнаружить любое различие между функциями распределения и
. По мнению других, этот критерий нацелен на проверку равенства медиан распределений, соответствующих выборкам. И то, и другое, строго говоря, неверно. Это будет ясно из дальнейшего изложения.
Введем некоторые обозначения. Пусть - функция, обратная к функции распределения
. Она определена на отрезке [0;1]. Положим
. Поскольку
непрерывна и строго возрастает, то
и
обладают теми же свойствами. Важную роль в дальнейшем изложении будет играть величина
Как нетрудно показать,
![a=P(X<Y)=\int\limits_0^1 tdL(t).](/sites/default/files/tex_cache/38a6f8f85b186d4845ef69b02e5cd6b6.png)
Введем также параметры
![b^2=\int\limits_0^1 L^2(t)dt-(1-a)^2,\; g^2=\int\limits_0^1 t^2 dL(t)-a^2.](/sites/default/files/tex_cache/82bbc8e8e62b7ee9252c6b6931e094db.png)
Тогда математические ожидания и дисперсии статистик Вилкоксона и Манна-Уитни согласно [ [ 8.3 ] , с.160] выражаются через введенные величины:
![]() |
( 1) |
Когда объемы обеих выборок безгранично растут, распределения статистик Вилкоксона и Манна-Уитни являются асимптотически нормальными (см., например, [ [ 8.3 ] , гл. 5 и [ 2.10 ] ]) с параметрами, задаваемыми формулами (1).
Если выборки полностью однородны, т.е. их функции распределения совпадают, справедлива гипотеза
![]() |
( 2) |
![L(t) = t](/sites/default/files/tex_cache/1d53b4a7fc4e15e258c781753a39ebcc.png)
![t](/sites/default/files/tex_cache/e358efa489f58062f10dd7316b65649e.png)
![[0, 1], L(t)= 0](/sites/default/files/tex_cache/1442eeced8e48c99f750d4016a76ea19.png)
![t](/sites/default/files/tex_cache/e358efa489f58062f10dd7316b65649e.png)
![L(t)= 1](/sites/default/files/tex_cache/0e488229f2046f01e306eea07786d582.png)
![t > 1](/sites/default/files/tex_cache/6695c71908a566b0e938a5e3ee426403.png)
![a = 1/2](/sites/default/files/tex_cache/987421b68ee8e228da1fed273a7686cf.png)
![]() |
( 3) |
Следовательно, распределение нормированной и центрированной статистики Вилкоксона
![]() |
( 4) |
Из асимптотической нормальности статистики следует, что правило принятия решения для критерия Вилкоксона выглядит следующим образом:
- если
, то гипотеза (2) однородности (тождества) функций распределений принимается на уровне значимости
;
- если же
, то гипотеза (2) однородности (тождества) функций распределений отклоняется на уровне значимости
.
В прикладной статистике наиболее часто применяется уровень значимости . Тогда значение модуля статистики
Вилкоксона надо сравнивать с граничным значением
.
Пример 1. Пусть даны две выборки. Первая содержит элементов 17; 22; 3; 5; 15; 2; 0; 7; 13; 97; 66; 14. Вторая содержит
элементов 47; 30; 2; 15; 1; 21; 25; 7; 44; 29; 33; 11; 6; 15. Проведем проверку однородности функций распределения двух выборок с помощью критерия Вилкоксона.
Первым шагом является построение общего вариационного ряда для элементов двух выборок (табл.8.1).
Ранги | 1 | 2 | 3,5 | 3,5 | 5 | 6 | 7 | 8,5 | 8,5 | 10 | 11 | 12 | 14 |
Элементы выборок | 0 | 1 | 2 | 2 | 3 | 5 | 6 | 7 | 7 | 11 | 13 | 14 | 15 |
Номера выборок | 1 | 2 | 1 | 2 | 1 | 1 | 2 | 1 | 2 | 2 | 1 | 1 | 1 |
Ранги | 14 | 14 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 |
Элементы выборок | 15 | 15 | 17 | 21 | 22 | 25 | 29 | 30 | 33 | 44 | 47 | 66 | 97 |
Номера выборок | 2 | 2 | 1 | 2 | 1 | 2 | 2 | 2 | 2 | 2 | 2 | 1 | 1 |
Хотя с точки зрения теории математической статистики вероятность совпадения двух элементов выборок равна 0, в реальных выборках экономических данных совпадения встречаются. Так, в рассматриваемых выборках, как видно из табл.8.1, два раза повторяется величина 2, два раза - величина 7 и три раза - величина 15. В таких случаях говорят о наличии "связанных рангов", а соответствующим совпадающим величинам приписывают среднее арифметическое тех рангов, которые они занимают. Так, величины 2 и 2 занимают в объединенной выборке места 3 и 4, поэтому им приписывается ранг (3+4)/2 = 3,5. Величины 7 и 7 занимают в объединенной выборке места 8 и 9, поэтому им приписывается ранг (8+9)/2 = 8,5. Величины 15, 15 и 15 занимают в объединенной выборке места 13, 14 и 15, поэтому им приписывается ранг (13+14+15)/3 = 14.
Следующий шаг - подсчет значения статистики Вилкоксона, т.е. суммы рангов элементов первой выборки
![S = R_1 + R_2 + ... + R_m = 1+3,5+5+6+8,5+11+12+14+16+18+25+26=146.](/sites/default/files/tex_cache/68aec3a77ac9cd742f4ae27003c1b984.png)
Подсчитаем также сумму рангов элементов второй выборки
![S_1 = 2+3,5+7+8,5+10+14+14+17+19+20+21+22+23+24= 205.](/sites/default/files/tex_cache/666c14a98efad11c2d6b70d0a4593728.png)
Величина может быть использована для контроля вычислений. Дело в том, что суммы рангов элементов первой выборки
и второй выборки
вместе составляют сумму рангов объединенной выборки, т.е. сумму всех натуральных чисел от 1 до
. Следовательно,
![S+ S_1 = (m+n)(m+n+1)/2= (12+14)(12+14+1)/2= 351.](/sites/default/files/tex_cache/75328653e4529243792ddad9fb18c1b2.png)
В соответствии с ранее проведенными расчетами . Необходимое условие правильности расчетов выполнено. Это условие не является достаточным и не гарантирует правильности расчетов.
Перейдем к расчету статистики . Согласно формуле (3)
![М(S) = 12(12+14+1)/ 2 = 162, D(S) = 12\cdot 14(12+14+1)/ 12= 378 .](/sites/default/files/tex_cache/05643495182741ddcf224128d2eb0d90.png)
Следовательно,
![T = ( S - 162) (378)^{-1/2} = (146-162) / 19,44 = - 0,82.](/sites/default/files/tex_cache/40712a86772a5432e2543c0d2e1e192b.png)
Поскольку , то гипотеза однородности принимается на уровне значимости 0,05.
Что будет, если поменять выборки местами, вторую назвать первой? Тогда вместо надо рассматривать
. Имеем
![\begin{gathered}
М(S1 ) = 14(12+14+1)/ 2 = 189, D(S) = D(S1 ) = 378 , \\
T_1 = (S_1 - 189)(378)^{-1/2} = (205-162)/19,44 = 0,82.
\end{gathered}](/sites/default/files/tex_cache/31b12b0bf189e758549af93c464d8dc1.png)
Таким образом, значения статистики критерия отличаются только знаком (можно показать, что это утверждение верно всегда). Поскольку в правиле принятия решения используется только абсолютная величина статистики, то принимаемое решение не зависит от того, какую выборку считаем первой, а какую второй. Для уменьшения объема таблиц принято считать первой выборку меньшего объема.
Продолжим обсуждение критерия Вилкоксона. Правила принятия решений и таблица критических значений для критерия Вилкоксона строятся в предположении справедливости гипотезы полной однородности, описываемой формулой (2). А что будет, если эта гипотеза неверна? Другими словами, какова мощность критерия Вилкоксона?
Пусть объемы выборок достаточно велики, так что можно пользоваться асимптотической нормальностью статистики Вилкоксона. Тогда в соответствии с формулами (1) статистика T будет асимптотически нормальна с параметрами
![]() |
( 5) |
Из формул (5) видно большое значение гипотезы
![]() |
( 6) |
Если эта гипотеза неверна, то, поскольку , справедлива оценка
![|M(T)|\ge (12m n (2n+1)^{-1})^{1/2}|1/2 - a|,](/sites/default/files/tex_cache/0366559a08316b8b18f36c0586ff7243.png)
![|M(T)|](/sites/default/files/tex_cache/9b0396b507009250d78aa87674eccdbc.png)
![b^2\le\int\limits_0^1 L^2(t)dt\le 1, g^2\le\int\limits_0^1 t^2 dL(t)\le 1, \alpha(1-\alpha)\le 1/4,](/sites/default/files/tex_cache/bace67b38975c996958e14520386212e.png)
![]() |
( 7) |
Следовательно, вероятность отклонения гипотезы , когда она неверна, т.е. мощность критерия Вилкоксона как критерия проверки гипотезы (6), стремится к 1 при возрастании объемов выборок, т.е. критерий Вилкоксона является состоятельным для этой гипотезы при альтернативе
![]() |
( 8) |
![T](/sites/default/files/tex_cache/b9ece18c950afbfa6b0fdbfa4ff731d3.png)
![]() |
( 9) |
Гипотеза (6) является сложной, дисперсия (9), как показывают приводимые ниже примеры, в зависимости от значений и
может быть как больше 1, так и меньше 1, но согласно неравенству (7) никогда не превосходит 12.