Здравствуйте! 4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1. Сегодня вижу, что я вне курса! Почему так произошло? |
Статистический анализ числовых величин
8.3. Двухвыборочный критерий Вилкоксона
Покажем (и это - основной результат настоящего параграфа), что двухвыборочный критерий Вилкоксона (в литературе его называют также критерием Манна-Уитни) предназначен для проверки гипотезы
где - случайная величина, распределенная как элементы первой выборки, а - второй.В описанной выше вероятностной модели двух независимых выборок без ограничения общности можно считать, что объем первой из них не превосходит объема второй, , в противном случае выборки можно поменять местами. Обычно предполагается, что функции и непрерывны и строго возрастают. Из непрерывности этих функций следует, что с вероятностью 1 все результатов наблюдений различны. В реальных эконометрических данных иногда встречаются совпадения, но сам факт их наличия - свидетельство нарушений предпосылок только что описанной базовой математической модели.
Статистика двухвыборочного критерия Вилкоксона определяется следующим образом. Все элементы объединенной выборки упорядочиваются в порядке возрастания. Элементы первой выборки занимают в общем вариационном ряду места с номерами , другими словами, имеют ранги . Тогда статистика Вилкоксона - это сумма рангов элементов первой выборки
Статистика Манна-Уитни определяется как число пар таких, что среди всех пар, в которых первый элемент - из первой выборки, а второй - из второй. Как известно [ [ 8.3 ] , с.160],
Поскольку и линейно связаны, то часто говорят не о двух критериях - Вилкоксона и Манна-Уитни, а об одном - критерии Вилкоксона (Манна-Уитни).
Критерий Вилкоксона - один из самых известных инструментов непараметрической статистики (наряду со статистиками типа Колмогорова-Смирнова и коэффициентами ранговой корреляции). Свойствам этого критерия и таблицам его критических значений уделяется место во многих монографиях по математической и прикладной статистике (см., например, [ [ 2.1 ] , [ 8.3 ] , [ 8.11 ] ]).
Однако в литературе имеются и неточные утверждения относительно возможностей критерия Вилкоксона. Так, одни полагают, что с его помощью можно обнаружить любое различие между функциями распределения и . По мнению других, этот критерий нацелен на проверку равенства медиан распределений, соответствующих выборкам. И то, и другое, строго говоря, неверно. Это будет ясно из дальнейшего изложения.
Введем некоторые обозначения. Пусть - функция, обратная к функции распределения . Она определена на отрезке [0;1]. Положим . Поскольку непрерывна и строго возрастает, то и обладают теми же свойствами. Важную роль в дальнейшем изложении будет играть величина Как нетрудно показать,
Введем также параметры
Тогда математические ожидания и дисперсии статистик Вилкоксона и Манна-Уитни согласно [ [ 8.3 ] , с.160] выражаются через введенные величины:
( 1) |
Когда объемы обеих выборок безгранично растут, распределения статистик Вилкоксона и Манна-Уитни являются асимптотически нормальными (см., например, [ [ 8.3 ] , гл. 5 и [ 2.10 ] ]) с параметрами, задаваемыми формулами (1).
Если выборки полностью однородны, т.е. их функции распределения совпадают, справедлива гипотеза
( 2) |
( 3) |
Следовательно, распределение нормированной и центрированной статистики Вилкоксона
( 4) |
Из асимптотической нормальности статистики следует, что правило принятия решения для критерия Вилкоксона выглядит следующим образом:
- если , то гипотеза (2) однородности (тождества) функций распределений принимается на уровне значимости ;
- если же , то гипотеза (2) однородности (тождества) функций распределений отклоняется на уровне значимости .
В прикладной статистике наиболее часто применяется уровень значимости . Тогда значение модуля статистики Вилкоксона надо сравнивать с граничным значением .
Пример 1. Пусть даны две выборки. Первая содержит элементов 17; 22; 3; 5; 15; 2; 0; 7; 13; 97; 66; 14. Вторая содержит элементов 47; 30; 2; 15; 1; 21; 25; 7; 44; 29; 33; 11; 6; 15. Проведем проверку однородности функций распределения двух выборок с помощью критерия Вилкоксона.
Первым шагом является построение общего вариационного ряда для элементов двух выборок (табл.8.1).
Ранги | 1 | 2 | 3,5 | 3,5 | 5 | 6 | 7 | 8,5 | 8,5 | 10 | 11 | 12 | 14 |
Элементы выборок | 0 | 1 | 2 | 2 | 3 | 5 | 6 | 7 | 7 | 11 | 13 | 14 | 15 |
Номера выборок | 1 | 2 | 1 | 2 | 1 | 1 | 2 | 1 | 2 | 2 | 1 | 1 | 1 |
Ранги | 14 | 14 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 |
Элементы выборок | 15 | 15 | 17 | 21 | 22 | 25 | 29 | 30 | 33 | 44 | 47 | 66 | 97 |
Номера выборок | 2 | 2 | 1 | 2 | 1 | 2 | 2 | 2 | 2 | 2 | 2 | 1 | 1 |
Хотя с точки зрения теории математической статистики вероятность совпадения двух элементов выборок равна 0, в реальных выборках экономических данных совпадения встречаются. Так, в рассматриваемых выборках, как видно из табл.8.1, два раза повторяется величина 2, два раза - величина 7 и три раза - величина 15. В таких случаях говорят о наличии "связанных рангов", а соответствующим совпадающим величинам приписывают среднее арифметическое тех рангов, которые они занимают. Так, величины 2 и 2 занимают в объединенной выборке места 3 и 4, поэтому им приписывается ранг (3+4)/2 = 3,5. Величины 7 и 7 занимают в объединенной выборке места 8 и 9, поэтому им приписывается ранг (8+9)/2 = 8,5. Величины 15, 15 и 15 занимают в объединенной выборке места 13, 14 и 15, поэтому им приписывается ранг (13+14+15)/3 = 14.
Следующий шаг - подсчет значения статистики Вилкоксона, т.е. суммы рангов элементов первой выборки
Подсчитаем также сумму рангов элементов второй выборки
Величина может быть использована для контроля вычислений. Дело в том, что суммы рангов элементов первой выборки и второй выборки вместе составляют сумму рангов объединенной выборки, т.е. сумму всех натуральных чисел от 1 до . Следовательно,
В соответствии с ранее проведенными расчетами . Необходимое условие правильности расчетов выполнено. Это условие не является достаточным и не гарантирует правильности расчетов.
Перейдем к расчету статистики . Согласно формуле (3)
Следовательно,
Поскольку , то гипотеза однородности принимается на уровне значимости 0,05.
Что будет, если поменять выборки местами, вторую назвать первой? Тогда вместо надо рассматривать . Имеем
Таким образом, значения статистики критерия отличаются только знаком (можно показать, что это утверждение верно всегда). Поскольку в правиле принятия решения используется только абсолютная величина статистики, то принимаемое решение не зависит от того, какую выборку считаем первой, а какую второй. Для уменьшения объема таблиц принято считать первой выборку меньшего объема.
Продолжим обсуждение критерия Вилкоксона. Правила принятия решений и таблица критических значений для критерия Вилкоксона строятся в предположении справедливости гипотезы полной однородности, описываемой формулой (2). А что будет, если эта гипотеза неверна? Другими словами, какова мощность критерия Вилкоксона?
Пусть объемы выборок достаточно велики, так что можно пользоваться асимптотической нормальностью статистики Вилкоксона. Тогда в соответствии с формулами (1) статистика T будет асимптотически нормальна с параметрами
( 5) |
Из формул (5) видно большое значение гипотезы
( 6) |
Если эта гипотеза неверна, то, поскольку , справедлива оценка
а потому безгранично растет при росте объемов выборок. В то же время, поскольку то( 7) |
Следовательно, вероятность отклонения гипотезы , когда она неверна, т.е. мощность критерия Вилкоксона как критерия проверки гипотезы (6), стремится к 1 при возрастании объемов выборок, т.е. критерий Вилкоксона является состоятельным для этой гипотезы при альтернативе
( 8) |
( 9) |
Гипотеза (6) является сложной, дисперсия (9), как показывают приводимые ниже примеры, в зависимости от значений и может быть как больше 1, так и меньше 1, но согласно неравенству (7) никогда не превосходит 12.