НОУ ИНТУИТ | Прикладная статистика. Лекция 7: Проверка гипотез

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 09.11.2009 | Уровень: для всех | Доступ: платный

|

Вам нравится? Нравится 61 студенту

| Поделиться |

Поддержать программу

7.3. Предельная теория непараметрических критериев

В прикладной статистике широко используются статистики типа омега-квадрат и типа Колмогорова-Смирнова. Они применяются для проверки согласия с фиксированным распределением или семейством распределений, для проверки однородности двух выборок, симметрии распределения относительно 0, при оценивании условной плотности и регрессии в пространствах произвольной природы и т.д.

Статистики интегрального типа и их асимптотика. Рассмотрим статистики интегрального типа

$\xi_{\alpha}=\xi(f_{\alpha},F_{\alpha})=\int\limits_{X}f_{\alpha(x,\omega)dF_{\alpha}(x,\gamma)},$

( 1)

где - некоторое пространство, по которому происходит интегрирование (например, X=[0; 1], X=R^1 или X = R^k ). Здесь $\{\alpha\}$ - направленное множество, переход к пределу по которому обозначен как $\alpha\rightarrow\infty$ (см. "Теоретическая база прикладной статистики" ). Случайные функции $f_{\alpha}: X\times\Omega Y$ обычно принимают значения, являющиеся числами. Но иногда рассматривают и постановки, в которых Y = R^k или - банахово пространство (т.е. полное нормированное пространство [ [ 1.9 ] ]). Наконец, $F_{\alpha}(x,\omega)$ - случайная функция распределения или случайная вероятностная мера; в последнем случае используют также обозначение $dF_{\alpha}(x,\omega)= F_{\alpha}(dx,\omega)$ .

Предполагаются выполненными необходимые для корректности внутриматематические предположения измеримости, например, сформулированные в [ [ 4.19 ] , [ 4.19 ] ].

Пример 1. Рассмотрим критерий Лемана-Розенблатта, т.е. критерий типа омега-квадрат для проверки однородности двух независимых выборок (см. "Статистический анализ числовых величин" ). Его статистика имеет вид:

$A=\frac{mn}{m+n}\int\limits_{-\infty}^{+\infty}(F_m(x)-G_n(x))^2dH_{m+n}(x),$

где

- эмпирическая функция распределения, построенная по первой выборке объема m, G_n(x))

- эмпирическая функция распределения, построенная по второй выборке объема

, а $H_{m+n}(x)$ - эмпирическая функция распределения, построенная по объединенной выборке объема m+n

. Легко видеть, что

$H_{m+n}(x)=\frac{m}{m+n}F_m(x)+\frac{n}{m+n}G_n(x).$

Ясно, что статистика имеет вид (1). При этом - действительное число, X=Y=R^1 , в роли $\alpha$ выступает пара (m, n) , и $\alpha\rightarrow \infty$ означает, что $\min(m, n)\rightarrow\infty$ . Далее,

$f_{\alpha}(x,\omega)=\frac{mn}{m+n}(F_m(x)-G_n(x))^2.$

Наконец, $F_{\alpha}(x,\omega) = H_{m+n}(x)$ .

Теперь обсудим асимптотическое поведение функций $f_{\alpha}(x,\omega)$ и $F_\{alpha}(x,\omega)$ , с помощью которых определяется статистика . Ограничимся случаем, когда справедлива гипотеза однородности, функции распределения, соответствующие генеральным совокупностям, из которых взяты выборки, совпадают. Их общую функцию распределения обозначим F(x) . Она предполагается непрерывной. Введем в рассмотрение выборочные процессы

$\xi_m(x)=\sqrt{m}(F_m(x)-F(x)),\eta_n(x)=\sqrt{n}(G_n(x)-F(x)).$

Нетрудно проверить, что

$f_{\alpha}(x,\omega)=\left(\sqrt{\frac{n}{m+n}}\xi_m(x)-\sqrt{\frac{m}{m+n}}\eta_n(x)\right)^2.$

Сделаем замену переменной t = F(x) . Тогда выборочные процессы переходят в соответствующие эмпирические (см. "Теоретическая база прикладной статистики" ):

$f_{\alpha}(F^{-1}(t),\omega)=\left(\sqrt{\frac{n}{m+n}}\xi_m(t)-\sqrt{\frac{m}{m+n}}\eta_n(t)\right)^2, 0\le t\le 1.$

Конечномерные распределения этого процесса, т.е. распределения случайных векторов

$(f_{\alpha}(F^{-1}(t_1),\omega),f_{\alpha}(F^{-1}(t_2),\omega),...,f_{\alpha}(F^{-1}(t_k),\omega))$

для всех возможных наборов (t_1, t_2, ..., t_k)

, сходятся к конечномерным распределениям квадрата броуновского моста $\eta^2(t)$ . В соответствии с $\S$ 4.5 рассматриваемая сходимость по распределению обозначается так:

$f_{\alpha}(F^{-1}(t),\omega)\Rightarrow\xi^2(t), 0\le t\le 1.$

( 2)

Нетрудно видеть, что

$F_{\alpha}(x,\omega)=H_{m+n}(x)\rightarrow F(x)$

при $\alpha\rightarrow\infty$ . С помощью замены переменной t=F(x)

получаем, что

$F_{\alpha}(F^{-1}(t),\omega)=H_{m+n}(F^{-1}(t))\rightarrow t$

( 3)

при $\alpha\rightarrow\infty$ . Из соотношений (2) и (3) хотелось бы сделать вывод, что в случае статистики Лемана - Розенблатта типа омега-квадрат

$\int\limits_X f_{\alpha}(x,\omega)dF_{\alpha}(x,\omega)=A\Rightarrow\int\limits_0^1\xi^2(t)dt,$

т.е. предельным распределением этой статистики является классическое распределение Смирнова [ [ 2.1 ] ], найденное как предельное для одновыборочной статистики критерия согласия омега-квадрат Крамера-Мизеса-Смирнова.

Действительно, сформулированное утверждение справедливо. Однако доказательство нетривиально.

Так, может показаться очевидным следующее утверждение.

Утверждение 1. Пусть $f: [0; 1] \rightarrow R^1$ - ограниченная функция, G_n(x) и G(x) - функции распределения, G_n(0)=G(0) =0, G_n(1)=G(1)=1 , причем $G_n(x)\rightarrow G(x)$ при всех . Тогда

$\lim_{n\rightarrow\infty}\int\limits_0^1 f(x)d(G_n(x)-G(x))=0.$

( 4)

Это утверждение неверно (ср. [ , с.42]). Действительно, пусть f(x)=1 , если рационально, и f(x)=0 , если иррационально, G(x)=x , а кусочно-постоянные функции G_n(x) имеют скачки величиной $2^{-n}$ в точках m/2^n, m=1,2,...,2^n при всех n=1,2,.. . Тогда $G_n(x)\rightarrow G(x)$ при всех , однако

$\int\limits_0^1 f(x)dG_n(x)=1,\; \int\limits_0^1 f(x)dG(x)=0$

при всех

. Следовательно, вопреки сформулированному выше утверждению 1,

$\int\limits_0^1 f(x)d(G_n(x)-G(x))=1,$

т.е. соотношение (4) неверно.

Итак, сформулируем проблему. Пусть известно, что последовательность случайных функций $f_{\alpha}(x, \omega)$ сходится по распределению при $\alpha\rightarrow\infty$ к случайной функции $f(x,\omega)$ . Пусть последовательность случайных мер $F_{\alpha}(A,\omega)$ сходится по распределению к вероятностной мере F(A) при $\alpha\rightarrow\infty$ . Если речь идет о конечномерном пространстве и меры задаются функциями распределения, то сходимость $F\alpha(x,\omega)$ к F(x) должна иметь место во всех точках непрерывности F(x) . В каких случаях можно утверждать, что при $\alpha\rightarrow\infty$ справедлив предельный переход

$\xi_{\alpha}=\xi(f_{\alpha},F_{\alpha})= \int\limits_X f_{\alpha}(x,\omega)dF_{\alpha}(x,\omega)\Rightarrow \xi=\xi(f,F)=\int\limits_X f(x,\omega)dF(x,\omega)?$

Выше показано, что, например, ограниченности $f_{\alpha}(x,\omega)$ для этого недостаточно.

Метод аппроксимации ступенчатыми функциями. Пусть $T=\{C_1, C_2,..., С_k\}$ - разбиение пространства на непересекающиеся подмножества. Пусть в каждом элементе C_j разбиения выделена точка x_j, j=1,2,...,k . На множестве функций $f:X\rightarrow Y$ введем оператор A_T : если $x\in C_j$ , то

( 5)

Тогда A_T f - аппроксимация функции ступенчатыми (кусочно-постоянными) функциями.

Пусть $f_{\alpha}(x,\omega)$ - последовательность случайных функций на , а $K(\cdot)$ - функционал на множестве всех возможных их траекторий как функций от . Для изучения распределения $К(f_{\alpha})$ методом аппроксимации ступенчатыми функциями используют разложение

$K(f_{\alpha})=K(A_Tf_{\alpha})+\{K(f_{\alpha})-K(A_T f_{\alpha})\}.$

( 6)

Согласно (5) распределение первого слагаемого в (6) определяется конечномерным распределением случайного элемента, а именно, распределением вектора

$(f_{\alpha}(x_1,\omega),f_{\alpha}(x_2,\omega),...,f_{\alpha}(x_k,\omega)).$

( 7)

В обычных постановках предельной теории непараметрических критериев распределение вектора (7) сходится при $\alpha\rightarrow\infty$ к соответствующему конечномерному распределению предельной случайной функции $f(x,\omega)$ , т.е. к распределению случайного вектора

$(f(x_1,\omega),f(x_2,\omega),...,f(x_k,\omega)).$

( 8)

В соответствии с теорией наследования сходимости ( "Теоретическая база прикладной статистики" ) при слабых условиях на функционал $K(\cdot)$ из сходимости по распределению вектора (7) к вектору (8) следует сходимость по распределению $K(A_T f_{\alpha})$ к K(A_T f) .

Используя аналогичное (6) разложение

$K(f)=K(A_Tf)+\{K(f)-K(A_Tf)\},$

( 9)

можно устанавливать сходимость по распределению $К(f_{\alpha})$ к К(f)

при $\alpha\roghtarrow\infty$ в два этапа: сначала выбрать разбиение

так, чтобы вторые слагаемые в правых частях соотношений (6) и (9) были малы, а затем при фиксированном операторе A_T

воспользоваться сходимостью по распределению $K(A_Tf_{\alpha})$ к K(A_Tf)

.

Рассмотрим простой пример применения метода аппроксимации ступенчатыми функциями.

Обобщение теоремы Хелли. Пусть $f: [0;1]\rightarrow R^1$ - измеримая функция, F_n(x) - функции распределений, сосредоточенных на отрезке [0; 1] . Пусть F_n(x) сходятся в основном к функции распределения F(x) , т.е.

$\lim_{n\rightarrow\infty}F_n(x)=f(x)$

( 10)

для всех , являющихся точками непрерывности F(x) .

Утверждение 2. Если f(x) - непрерывная функция, то

$\lim_{n\rightarrow\infty}\int\limits_0^1 f(x)dF_n(x)=\int\limits_0^1 f(x)dF(x)$

( 11)

(рассматриваются интегралы Лебега-Стилтьеса).

Утверждение 2 известно в литературе как первая теорема Хелли [ [ 1.9 ] , с.344-346], вторая теорема Хелли [ [ 2.3 ] , с.174-175], лемма Хелли-Брея [ [ 7.10 ] , с.193-194].

Естественно поставить вопрос: при каких из (10) следует (11)? Необходимо ввести условия и на F_n : если $F_n\equiv F$ , то соотношение (11) верно для любой измеримой функции , для которой интеграл в (11) существует. Поэтому рассмотрим следующую постановку.

Постановка 1. Пусть функция такова, что для любой последовательности F_n , удовлетворяющей (10), справедливо (11). Что можно сказать о функции ?

В работах [ [ 4.19 ] , [ 4.19 ] ] найдены следующие необходимые и достаточные условия на функцию .

Теорема 1. Пусть ограниченная на [0; 1] функция интегрируема по Риману-Стилтьесу по функции распределения F(x) . Тогда для любой последовательности функций распределения F_n , сходящейся в основном к , имеет место предельный переход (11).

Теорема 2. Пусть функция не интегрируема по Риману-Стилтьесу по функции распределения F(x) . Тогда существует последовательность функций распределения F_n , сходящаяся в основном к , для которой соотношение (11) не выполнено.

Теоремы 1 и 2 в совокупности дают необходимые и достаточные условия для в постановке 1. А именно, необходимо и достаточно, чтобы ограниченная на [0; 1] функция была интегрируема по Риману-Стилтьесу по .

Напомним определение интегрируемости функции по Риману-Стилтьесу по функции распределения [ [ 1.9 ] , с.341]. Рассмотрим разбиение $T=\{C_1, C_2, ..., C_k\}$ , где

$C_i=[y_{i-1},y_i), i=1,2,...,m-1, C_m=[y_{m-1},y_m],$

( 12)

Выберем в C_i произвольную точку x_i, i=1,2,...,m , и составим сумму

$S(T)=\sum_{i=1}^m f(x_i)[F(y_i)-F(y_{i-1})].$

Если при $\max(y_i - y_{i-1})\rightarrow 0$ эти суммы стремятся к некоторому пределу (не зависящему ни от способа дробления отрезка [0; 1], ни от выбора точек x_i в каждом из элементов разбиения), то этот предел называется интегралом Римана-Стилтьеса от функции по функции по отрезку [0; 1] и обозначается символом, приведенным в правой части равенства (11).

Рассмотрим суммы Дарбу-Стилтьеса

$S_H(T)=\sum_{i=1}^m m_i[F(y_i)-F(y_{i-1})], \; S_B(T)=\sum_{i=1}^m M_i[F(y_i)-F(y_{i-1})],$

где

$m_i=\inf\{f(x),x\in C_i\},\;M_i=\sup\{f(x),x\in C_i\}.$

Ясно, что

$S_H(T)\le S(T)\le S_B(T).$

Необходимым и достаточным условием интегрируемости по Риману-Стилтьесу является следующее: для любой последовательности разбиений T_k, k=1, 2, 3, .. . вида (12) такой, что $\max(y_i - y_{i-1}) \rightarrow 0$ при $k\rightarrow\infty$ , имеем

$\lim_{k\rightarrow\infty}[S_B(T_k)-S_H(T_k)]=0.$

( 13)

Напомним, что согласно $\S$ 4.3 колебанием $\delta(f, B)$ функции на множестве называется $\delta(f,B) = \sup\{|f(x) - f(y)|, x\in B, y\in B\}$ . Поскольку

$\delta(f,C_i)=M_i-m_i,$

то условие (13) можно записать в виде

$\lim_{k\rightarrow\infty}\sum_{C\in T_k}\delta(f,C)F(C)=0.$

( 14)

Условие (14), допускающее обобщение с Х = [0; 1] и $f: [0; 1] \rightarrow R^1$ на и более общего вида, и будем использовать при доказательстве теорем 1 и 2.

Доказательство теоремы 1. Согласно методу аппроксимации ступенчатыми функциями рассмотрим оператор A_T . Как легко проверить, имеет место разложение

$\begin{gathered} \beta_n=\int\limits_0^1 f(x)dF_n(x)-\int\limits_0^1 f(x)dF(x)= \int\limits_0^1\{f(x)-A_T f(x)\}F_n(x)+ \\ +\int\limits_0^1\{A_T f(x)-f(x)\}dF(x)+ \left\{ \int\limits_0^1 A_T f(x)dF_n(x)-\int\limits_0^1 A_T f(x)dF(x) \right\}. \end{gathered}$

( 15)

Поскольку

$|f(x)-A_T f(x)|\le\delta(f,X_i),\;x\in C_i,$

то первое слагаемое в правой части (15) не превосходит

$\sum_{C\in T}\delta(f,C)F_n(C),$

( 16)

а второе не превосходит

$\sum_{C\in T}\delta(f,C)F(C).$

Согласно определению оператора A_T третье слагаемое в (15) имеет вид

$\sum_{i=1}^m f(x_i)(F_n(C_i)-F(C_i)).$

Очевидно, оно не превосходит по модулю

$\sup_{x\in X}|f(x)|\sum_{C\in T}|F_n(C)-F(C)|$

(здесь используется ограниченность

на

).

Согласно (16) первое слагаемое в правой части (15) не превосходит

$\sum_{C\in T}\delta(f,C)F(C)+\sum_{C\in T}\delta(f,C)|F_n(C)-F(C)|.$

Поскольку

$\delta(f,C)\le 2\sup_{x\in X}|f(x)|,$

то первое слагаемое в правой части (15) не превосходит

$\sum_{C\in T}\delta(f,C)F(C)+2\sup_{x\in X}|f(x)|\sum_{C\in T}|F_n(C)-F(C)|.$

Из оценок, относящихся к трем слагаемым в разложении (15), следует, что

$|\beta_n|\le 2\sum_{C\in T}\delta(f,C)F(C)+3\sup_{x\in X}|f(x)|\sum_{C\in T}|F_n(C)-F(C)|.$

( 17)

Используя оценку (17), докажем, что $\beta_n\rightarrow 0$ при $n\rightarrow\infty$ . Пусть дано $\varepsilon>0$ . Согласно условию интегрируемости функции по Риману-Стилтьесу, т.е. условию (14), можно указать разбиение $T = T(\varepsilon)$ такое, что