Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 4085 / 1036 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 8:

Статистический анализ числовых величин

8.3. Двухвыборочный критерий Вилкоксона

Покажем (и это - основной результат настоящего параграфа), что двухвыборочный критерий Вилкоксона (в литературе его называют также критерием Манна-Уитни) предназначен для проверки гипотезы

H_0:P(X<Y)=1/2,
где X - случайная величина, распределенная как элементы первой выборки, а Y - второй.

В описанной выше вероятностной модели двух независимых выборок без ограничения общности можно считать, что объем первой из них не превосходит объема второй, m < n, в противном случае выборки можно поменять местами. Обычно предполагается, что функции F(x) и G(x) непрерывны и строго возрастают. Из непрерывности этих функций следует, что с вероятностью 1 все m + n результатов наблюдений различны. В реальных эконометрических данных иногда встречаются совпадения, но сам факт их наличия - свидетельство нарушений предпосылок только что описанной базовой математической модели.

Статистика S двухвыборочного критерия Вилкоксона определяется следующим образом. Все элементы объединенной выборки X_1, X_2, ..., X_m, Y_1, Y_2, ..., Y_n упорядочиваются в порядке возрастания. Элементы первой выборки X_1, X_2, ..., X_m занимают в общем вариационном ряду места с номерами R_1, R_2, ..., R_m, другими словами, имеют ранги R_1, R_2, ..., R_m. Тогда статистика Вилкоксона - это сумма рангов элементов первой выборки

S=R_1, R_2, ..., R_m.

Статистика U Манна-Уитни определяется как число пар (X_i, Y_j) таких, что X_i < Y_j, среди всех mn пар, в которых первый элемент - из первой выборки, а второй - из второй. Как известно [ [ 8.3 ] , с.160],

U=mn+m(m+1)/2-S.

Поскольку S и U линейно связаны, то часто говорят не о двух критериях - Вилкоксона и Манна-Уитни, а об одном - критерии Вилкоксона (Манна-Уитни).

Критерий Вилкоксона - один из самых известных инструментов непараметрической статистики (наряду со статистиками типа Колмогорова-Смирнова и коэффициентами ранговой корреляции). Свойствам этого критерия и таблицам его критических значений уделяется место во многих монографиях по математической и прикладной статистике (см., например, [ [ 2.1 ] , [ 8.3 ] , [ 8.11 ] ]).

Однако в литературе имеются и неточные утверждения относительно возможностей критерия Вилкоксона. Так, одни полагают, что с его помощью можно обнаружить любое различие между функциями распределения F(x) и G(x). По мнению других, этот критерий нацелен на проверку равенства медиан распределений, соответствующих выборкам. И то, и другое, строго говоря, неверно. Это будет ясно из дальнейшего изложения.

Введем некоторые обозначения. Пусть F^{-1}(t) - функция, обратная к функции распределения F(x). Она определена на отрезке [0;1]. Положим L(t) = G(F^{-1}(t)). Поскольку F(x) непрерывна и строго возрастает, то F^{-1}(t) и L(t) обладают теми же свойствами. Важную роль в дальнейшем изложении будет играть величина a = P(X< Y). Как нетрудно показать,

a=P(X<Y)=\int\limits_0^1 tdL(t).

Введем также параметры

b^2=\int\limits_0^1 L^2(t)dt-(1-a)^2,\; g^2=\int\limits_0^1 t^2 dL(t)-a^2.

Тогда математические ожидания и дисперсии статистик Вилкоксона и Манна-Уитни согласно [ [ 8.3 ] , с.160] выражаются через введенные величины:

\begin{gathered}
М(U) = mna, М(S) = mn + m(m+1)/2 - М(U) = mn(1- a) + m(m+1)/2,\\
D(S) = D(U) = mn [(n - 1) b^2 + (m - 1) g^2 + a(1 - a)].
\end{gathered} ( 1)

Когда объемы обеих выборок безгранично растут, распределения статистик Вилкоксона и Манна-Уитни являются асимптотически нормальными (см., например, [ [ 8.3 ] , гл. 5 и [ 2.10 ] ]) с параметрами, задаваемыми формулами (1).

Если выборки полностью однородны, т.е. их функции распределения совпадают, справедлива гипотеза

H_0: F(x) = G(x) \textit{ при всех } x, ( 2)
то L(t) = t для t из отрезка [0, 1], L(t)= 0 для всех отрицательных t и L(t)= 1 для t > 1, соответственно a = 1/2. Подставляя в формулы (1), получаем, что
М(S) = m(m+n+1)/2, D(S) = mn(m+n+1)/12. ( 3)

Следовательно, распределение нормированной и центрированной статистики Вилкоксона

T = ( S - m(m+n+1)/2) (mn(m+n+1)/ 12)^{-1/2} ( 4)
при росте объемов выборок приближается к стандартному нормальному распределению (с математическим ожиданием 0 и дисперсией 1).

Из асимптотической нормальности статистики Т следует, что правило принятия решения для критерия Вилкоксона выглядит следующим образом:

  • если |T|\le\underline{\Phi^{-1}\left(1-\frac{\alpha}{2}\right)}, то гипотеза (2) однородности (тождества) функций распределений принимается на уровне значимости a ;
  • если же |T|>\underline{\Phi^{-1}\left(1-\frac{\alpha}{2}\right)}, то гипотеза (2) однородности (тождества) функций распределений отклоняется на уровне значимости \alpha.

В прикладной статистике наиболее часто применяется уровень значимости \alpha=0,05. Тогда значение модуля статистики T Вилкоксона надо сравнивать с граничным значением \underline{\Phi^{-1}\left(1-\frac{\alpha}{2}\right)}=1,96.

Пример 1. Пусть даны две выборки. Первая содержит m = 12 элементов 17; 22; 3; 5; 15; 2; 0; 7; 13; 97; 66; 14. Вторая содержит n=14 элементов 47; 30; 2; 15; 1; 21; 25; 7; 44; 29; 33; 11; 6; 15. Проведем проверку однородности функций распределения двух выборок с помощью критерия Вилкоксона.

Первым шагом является построение общего вариационного ряда для элементов двух выборок (табл.8.1).

Таблица 8.1. Общий вариационный ряд для элементов двух выборок
Ранги 1 2 3,5 3,5 5 6 7 8,5 8,5 10 11 12 14
Элементы выборок 0 1 2 2 3 5 6 7 7 11 13 14 15
Номера выборок 1 2 1 2 1 1 2 1 2 2 1 1 1
Ранги 14 14 16 17 18 19 20 21 22 23 24 25 26
Элементы выборок 15 15 17 21 22 25 29 30 33 44 47 66 97
Номера выборок 2 2 1 2 1 2 2 2 2 2 2 1 1

Хотя с точки зрения теории математической статистики вероятность совпадения двух элементов выборок равна 0, в реальных выборках экономических данных совпадения встречаются. Так, в рассматриваемых выборках, как видно из табл.8.1, два раза повторяется величина 2, два раза - величина 7 и три раза - величина 15. В таких случаях говорят о наличии "связанных рангов", а соответствующим совпадающим величинам приписывают среднее арифметическое тех рангов, которые они занимают. Так, величины 2 и 2 занимают в объединенной выборке места 3 и 4, поэтому им приписывается ранг (3+4)/2 = 3,5. Величины 7 и 7 занимают в объединенной выборке места 8 и 9, поэтому им приписывается ранг (8+9)/2 = 8,5. Величины 15, 15 и 15 занимают в объединенной выборке места 13, 14 и 15, поэтому им приписывается ранг (13+14+15)/3 = 14.

Следующий шаг - подсчет значения статистики Вилкоксона, т.е. суммы рангов элементов первой выборки

S = R_1 + R_2 + ... + R_m = 1+3,5+5+6+8,5+11+12+14+16+18+25+26=146.

Подсчитаем также сумму рангов элементов второй выборки

S_1 = 2+3,5+7+8,5+10+14+14+17+19+20+21+22+23+24= 205.

Величина S_1 может быть использована для контроля вычислений. Дело в том, что суммы рангов элементов первой выборки S и второй выборки S_1 вместе составляют сумму рангов объединенной выборки, т.е. сумму всех натуральных чисел от 1 до m+n. Следовательно,

S+ S_1 = (m+n)(m+n+1)/2= (12+14)(12+14+1)/2= 351.

В соответствии с ранее проведенными расчетами S+S_1 = 146+205=351. Необходимое условие правильности расчетов выполнено. Это условие не является достаточным и не гарантирует правильности расчетов.

Перейдем к расчету статистики T. Согласно формуле (3)

М(S) = 12(12+14+1)/ 2 = 162, D(S) = 12\cdot 14(12+14+1)/ 12= 378 .

Следовательно,

T = ( S - 162) (378)^{-1/2} = (146-162) / 19,44 = - 0,82.

Поскольку |T|\le 1,96, то гипотеза однородности принимается на уровне значимости 0,05.

Что будет, если поменять выборки местами, вторую назвать первой? Тогда вместо S надо рассматривать S_1. Имеем

\begin{gathered}
М(S1 ) = 14(12+14+1)/ 2 = 189, D(S) = D(S1 ) = 378 , \\
T_1 = (S_1 - 189)(378)^{-1/2} = (205-162)/19,44 = 0,82.
\end{gathered}

Таким образом, значения статистики критерия отличаются только знаком (можно показать, что это утверждение верно всегда). Поскольку в правиле принятия решения используется только абсолютная величина статистики, то принимаемое решение не зависит от того, какую выборку считаем первой, а какую второй. Для уменьшения объема таблиц принято считать первой выборку меньшего объема.

Продолжим обсуждение критерия Вилкоксона. Правила принятия решений и таблица критических значений для критерия Вилкоксона строятся в предположении справедливости гипотезы полной однородности, описываемой формулой (2). А что будет, если эта гипотеза неверна? Другими словами, какова мощность критерия Вилкоксона?

Пусть объемы выборок достаточно велики, так что можно пользоваться асимптотической нормальностью статистики Вилкоксона. Тогда в соответствии с формулами (1) статистика T будет асимптотически нормальна с параметрами

\begin{aligned}
&М(T) = (12mn)^{1/2}(1/2-a)(m+n+1)^{-1/2}, \\
&D(T)= 12 [(n - 1) b^2 + (m - 1) g^2 + a(1 - a) ] (m+n+1)^{-1}. 
\end{aligned} ( 5)

Из формул (5) видно большое значение гипотезы

H_{01}: a = P(X < Y) = 1/2. ( 6)

Если эта гипотеза неверна, то, поскольку m < n, справедлива оценка

|M(T)|\ge (12m n (2n+1)^{-1})^{1/2}|1/2 - a|,
а потому |M(T)| безгранично растет при росте объемов выборок. В то же время, поскольку
b^2\le\int\limits_0^1 L^2(t)dt\le 1, g^2\le\int\limits_0^1 t^2 dL(t)\le 1, \alpha(1-\alpha)\le 1/4,
то
D(T)\le 12[(n-1)+(m-1)+1/4](m+n+1)^{-1}\le 12. ( 7)

Следовательно, вероятность отклонения гипотезы H_{01}, когда она неверна, т.е. мощность критерия Вилкоксона как критерия проверки гипотезы (6), стремится к 1 при возрастании объемов выборок, т.е. критерий Вилкоксона является состоятельным для этой гипотезы при альтернативе

AH_{01}:a=P(X<Y)\ne 1/2. ( 8)
Если же гипотеза (6) верна, то статистика T асимптотически нормальна с математическим ожиданием 0 и дисперсией, определяемой формулой
D(T)=12[(n-1)b^2+(m-1)g^2+1/4](m+n+1)^{-1}. ( 9)

Гипотеза (6) является сложной, дисперсия (9), как показывают приводимые ниже примеры, в зависимости от значений b^2 и g^2 может быть как больше 1, так и меньше 1, но согласно неравенству (7) никогда не превосходит 12.

Анастасия Маркова
Анастасия Маркова

Здравствуйте!

4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1.

Сегодня вижу, что я вне курса! Почему так произошло?