Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3659 / 734 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 7:

Проверка гипотез

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >

7.3. Предельная теория непараметрических критериев

В прикладной статистике широко используются статистики типа омега-квадрат и типа Колмогорова-Смирнова. Они применяются для проверки согласия с фиксированным распределением или семейством распределений, для проверки однородности двух выборок, симметрии распределения относительно 0, при оценивании условной плотности и регрессии в пространствах произвольной природы и т.д.

Статистики интегрального типа и их асимптотика. Рассмотрим статистики интегрального типа

\xi_{\alpha}=\xi(f_{\alpha},F_{\alpha})=\int\limits_{X}f_{\alpha(x,\omega)dF_{\alpha}(x,\gamma)}, ( 1)

где X - некоторое пространство, по которому происходит интегрирование (например, X=[0; 1], X=R^1 или X = R^k ). Здесь \{\alpha\} - направленное множество, переход к пределу по которому обозначен как \alpha\rightarrow\infty (см. "Теоретическая база прикладной статистики" ). Случайные функции f_{\alpha}: X\times\Omega Y обычно принимают значения, являющиеся числами. Но иногда рассматривают и постановки, в которых Y = R^k или Y - банахово пространство (т.е. полное нормированное пространство [ [ 1.9 ] ]). Наконец, F_{\alpha}(x,\omega) - случайная функция распределения или случайная вероятностная мера; в последнем случае используют также обозначение dF_{\alpha}(x,\omega)= F_{\alpha}(dx,\omega).

Предполагаются выполненными необходимые для корректности внутриматематические предположения измеримости, например, сформулированные в [ [ 4.19 ] , [ 4.19 ] ].

Пример 1. Рассмотрим критерий Лемана-Розенблатта, т.е. критерий типа омега-квадрат для проверки однородности двух независимых выборок (см. "Статистический анализ числовых величин" ). Его статистика имеет вид:

A=\frac{mn}{m+n}\int\limits_{-\infty}^{+\infty}(F_m(x)-G_n(x))^2dH_{m+n}(x),
где F_m(x) - эмпирическая функция распределения, построенная по первой выборке объема m, G_n(x)) - эмпирическая функция распределения, построенная по второй выборке объема n, а H_{m+n}(x) - эмпирическая функция распределения, построенная по объединенной выборке объема m+n. Легко видеть, что
H_{m+n}(x)=\frac{m}{m+n}F_m(x)+\frac{n}{m+n}G_n(x).

Ясно, что статистика A имеет вид (1). При этом x - действительное число, X=Y=R^1, в роли \alpha выступает пара (m, n), и \alpha\rightarrow \infty означает, что \min(m, n)\rightarrow\infty. Далее,

f_{\alpha}(x,\omega)=\frac{mn}{m+n}(F_m(x)-G_n(x))^2.

Наконец, F_{\alpha}(x,\omega) = H_{m+n}(x).

Теперь обсудим асимптотическое поведение функций f_{\alpha}(x,\omega) и F_\{alpha}(x,\omega), с помощью которых определяется статистика A. Ограничимся случаем, когда справедлива гипотеза однородности, функции распределения, соответствующие генеральным совокупностям, из которых взяты выборки, совпадают. Их общую функцию распределения обозначим F(x). Она предполагается непрерывной. Введем в рассмотрение выборочные процессы

\xi_m(x)=\sqrt{m}(F_m(x)-F(x)),\eta_n(x)=\sqrt{n}(G_n(x)-F(x)).

Нетрудно проверить, что

f_{\alpha}(x,\omega)=\left(\sqrt{\frac{n}{m+n}}\xi_m(x)-\sqrt{\frac{m}{m+n}}\eta_n(x)\right)^2.

Сделаем замену переменной t = F(x). Тогда выборочные процессы переходят в соответствующие эмпирические (см. "Теоретическая база прикладной статистики" ):

f_{\alpha}(F^{-1}(t),\omega)=\left(\sqrt{\frac{n}{m+n}}\xi_m(t)-\sqrt{\frac{m}{m+n}}\eta_n(t)\right)^2, 0\le t\le 1.

Конечномерные распределения этого процесса, т.е. распределения случайных векторов

(f_{\alpha}(F^{-1}(t_1),\omega),f_{\alpha}(F^{-1}(t_2),\omega),...,f_{\alpha}(F^{-1}(t_k),\omega))
для всех возможных наборов (t_1, t_2, ..., t_k), сходятся к конечномерным распределениям квадрата броуновского моста \eta^2(t). В соответствии с \S 4.5 рассматриваемая сходимость по распределению обозначается так:
f_{\alpha}(F^{-1}(t),\omega)\Rightarrow\xi^2(t), 0\le t\le 1. ( 2)

Нетрудно видеть, что

F_{\alpha}(x,\omega)=H_{m+n}(x)\rightarrow F(x)
при \alpha\rightarrow\infty. С помощью замены переменной t=F(x) получаем, что
F_{\alpha}(F^{-1}(t),\omega)=H_{m+n}(F^{-1}(t))\rightarrow t ( 3)
при \alpha\rightarrow\infty. Из соотношений (2) и (3) хотелось бы сделать вывод, что в случае статистики Лемана - Розенблатта типа омега-квадрат
\int\limits_X f_{\alpha}(x,\omega)dF_{\alpha}(x,\omega)=A\Rightarrow\int\limits_0^1\xi^2(t)dt,

т.е. предельным распределением этой статистики является классическое распределение Смирнова [ [ 2.1 ] ], найденное как предельное для одновыборочной статистики критерия согласия омега-квадрат Крамера-Мизеса-Смирнова.

Действительно, сформулированное утверждение справедливо. Однако доказательство нетривиально.

Так, может показаться очевидным следующее утверждение.

Утверждение 1. Пусть f: [0; 1] \rightarrow R^1 - ограниченная функция, G_n(x) и G(x) - функции распределения, G_n(0)=G(0) =0, G_n(1)=G(1)=1, причем G_n(x)\rightarrow G(x) при всех x. Тогда

\lim_{n\rightarrow\infty}\int\limits_0^1 f(x)d(G_n(x)-G(x))=0. ( 4)

Это утверждение неверно (ср. [ 11, с.42]). Действительно, пусть f(x)=1, если x рационально, и f(x)=0, если x иррационально, G(x)=x, а кусочно-постоянные функции G_n(x) имеют скачки величиной 2^{-n} в точках m/2^n, m=1,2,...,2^n при всех n=1,2,... Тогда G_n(x)\rightarrow G(x) при всех x, однако

\int\limits_0^1 f(x)dG_n(x)=1,\;
\int\limits_0^1 f(x)dG(x)=0
при всех n=1,2,... Следовательно, вопреки сформулированному выше утверждению 1,
\int\limits_0^1 f(x)d(G_n(x)-G(x))=1,
т.е. соотношение (4) неверно.

Итак, сформулируем проблему. Пусть известно, что последовательность случайных функций f_{\alpha}(x, \omega) сходится по распределению при \alpha\rightarrow\infty к случайной функции f(x,\omega). Пусть последовательность случайных мер F_{\alpha}(A,\omega) сходится по распределению к вероятностной мере F(A) при \alpha\rightarrow\infty. Если речь идет о конечномерном пространстве и меры задаются функциями распределения, то сходимость F\alpha(x,\omega) к F(x) должна иметь место во всех точках непрерывности F(x). В каких случаях можно утверждать, что при \alpha\rightarrow\infty справедлив предельный переход

\xi_{\alpha}=\xi(f_{\alpha},F_{\alpha})=
\int\limits_X f_{\alpha}(x,\omega)dF_{\alpha}(x,\omega)\Rightarrow
\xi=\xi(f,F)=\int\limits_X f(x,\omega)dF(x,\omega)?

Выше показано, что, например, ограниченности f_{\alpha}(x,\omega) для этого недостаточно.

Метод аппроксимации ступенчатыми функциями. Пусть T=\{C_1, C_2,..., С_k\} - разбиение пространства X на непересекающиеся подмножества. Пусть в каждом элементе C_j разбиения T выделена точка x_j, j=1,2,...,k. На множестве функций f:X\rightarrow Y введем оператор A_T: если x\in C_j, то

A_T f(x)=f(x_j), j=1,2,...,k ( 5)

Тогда A_T f - аппроксимация функции f ступенчатыми (кусочно-постоянными) функциями.

Пусть f_{\alpha}(x,\omega) - последовательность случайных функций на X, а K(\cdot) - функционал на множестве всех возможных их траекторий как функций от x. Для изучения распределения К(f_{\alpha}) методом аппроксимации ступенчатыми функциями используют разложение

K(f_{\alpha})=K(A_Tf_{\alpha})+\{K(f_{\alpha})-K(A_T f_{\alpha})\}. ( 6)

Согласно (5) распределение первого слагаемого в (6) определяется конечномерным распределением случайного элемента, а именно, распределением вектора

(f_{\alpha}(x_1,\omega),f_{\alpha}(x_2,\omega),...,f_{\alpha}(x_k,\omega)). ( 7)

В обычных постановках предельной теории непараметрических критериев распределение вектора (7) сходится при \alpha\rightarrow\infty к соответствующему конечномерному распределению предельной случайной функции f(x,\omega), т.е. к распределению случайного вектора

(f(x_1,\omega),f(x_2,\omega),...,f(x_k,\omega)). ( 8)

В соответствии с теорией наследования сходимости ( "Теоретическая база прикладной статистики" ) при слабых условиях на функционал K(\cdot) из сходимости по распределению вектора (7) к вектору (8) следует сходимость по распределению K(A_T f_{\alpha}) к K(A_T f).

Используя аналогичное (6) разложение

K(f)=K(A_Tf)+\{K(f)-K(A_Tf)\}, ( 9)
можно устанавливать сходимость по распределению К(f_{\alpha}) к К(f) при \alpha\roghtarrow\infty в два этапа: сначала выбрать разбиение T так, чтобы вторые слагаемые в правых частях соотношений (6) и (9) были малы, а затем при фиксированном операторе A_T воспользоваться сходимостью по распределению K(A_Tf_{\alpha}) к K(A_Tf).

Рассмотрим простой пример применения метода аппроксимации ступенчатыми функциями.

Обобщение теоремы Хелли. Пусть f: [0;1]\rightarrow R^1 - измеримая функция, F_n(x) - функции распределений, сосредоточенных на отрезке [0; 1]. Пусть F_n(x) сходятся в основном к функции распределения F(x), т.е.

\lim_{n\rightarrow\infty}F_n(x)=f(x) ( 10)

для всех x, являющихся точками непрерывности F(x).

Утверждение 2. Если f(x) - непрерывная функция, то

\lim_{n\rightarrow\infty}\int\limits_0^1 f(x)dF_n(x)=\int\limits_0^1 f(x)dF(x) ( 11)
(рассматриваются интегралы Лебега-Стилтьеса).

Утверждение 2 известно в литературе как первая теорема Хелли [ [ 1.9 ] , с.344-346], вторая теорема Хелли [ [ 2.3 ] , с.174-175], лемма Хелли-Брея [ [ 7.10 ] , с.193-194].

Естественно поставить вопрос: при каких f из (10) следует (11)? Необходимо ввести условия и на F_n: если F_n\equiv F, то соотношение (11) верно для любой измеримой функции f, для которой интеграл в (11) существует. Поэтому рассмотрим следующую постановку.

Постановка 1. Пусть функция f такова, что для любой последовательности F_n, удовлетворяющей (10), справедливо (11). Что можно сказать о функции f?

В работах [ [ 4.19 ] , [ 4.19 ] ] найдены следующие необходимые и достаточные условия на функцию f.

Теорема 1. Пусть ограниченная на [0; 1] функция f интегрируема по Риману-Стилтьесу по функции распределения F(x). Тогда для любой последовательности функций распределения F_n, сходящейся в основном к F, имеет место предельный переход (11).

Теорема 2. Пусть функция f не интегрируема по Риману-Стилтьесу по функции распределения F(x). Тогда существует последовательность функций распределения F_n, сходящаяся в основном к F, для которой соотношение (11) не выполнено.

Теоремы 1 и 2 в совокупности дают необходимые и достаточные условия для f в постановке 1. А именно, необходимо и достаточно, чтобы ограниченная на [0; 1] функция f была интегрируема по Риману-Стилтьесу по F.

Напомним определение интегрируемости функции f по Риману-Стилтьесу по функции распределения F [ [ 1.9 ] , с.341]. Рассмотрим разбиение T=\{C_1, C_2, ..., C_k\}, где

C_i=[y_{i-1},y_i), i=1,2,...,m-1, C_m=[y_{m-1},y_m], ( 12)
0=y_0<y_1<y_2<...<y_m=1.

Выберем в C_i произвольную точку x_i, i=1,2,...,m, и составим сумму

S(T)=\sum_{i=1}^m f(x_i)[F(y_i)-F(y_{i-1})].

Если при \max(y_i - y_{i-1})\rightarrow 0 эти суммы стремятся к некоторому пределу (не зависящему ни от способа дробления отрезка [0; 1], ни от выбора точек x_i в каждом из элементов разбиения), то этот предел называется интегралом Римана-Стилтьеса от функции f по функции F по отрезку [0; 1] и обозначается символом, приведенным в правой части равенства (11).

Рассмотрим суммы Дарбу-Стилтьеса

S_H(T)=\sum_{i=1}^m m_i[F(y_i)-F(y_{i-1})], \;
S_B(T)=\sum_{i=1}^m M_i[F(y_i)-F(y_{i-1})],
где
m_i=\inf\{f(x),x\in C_i\},\;M_i=\sup\{f(x),x\in C_i\}.

Ясно, что

S_H(T)\le S(T)\le S_B(T).

Необходимым и достаточным условием интегрируемости по Риману-Стилтьесу является следующее: для любой последовательности разбиений T_k, k=1, 2, 3, ... вида (12) такой, что \max(y_i - y_{i-1}) \rightarrow 0 при k\rightarrow\infty, имеем

\lim_{k\rightarrow\infty}[S_B(T_k)-S_H(T_k)]=0. ( 13)

Напомним, что согласно \S 4.3 колебанием \delta(f, B) функции f на множестве B называется \delta(f,B) = \sup\{|f(x) - f(y)|, x\in B, y\in B\}. Поскольку

\delta(f,C_i)=M_i-m_i,
то условие (13) можно записать в виде
\lim_{k\rightarrow\infty}\sum_{C\in T_k}\delta(f,C)F(C)=0. ( 14)

Условие (14), допускающее обобщение с Х = [0; 1] и f: [0; 1] \rightarrow R^1 на X и f более общего вида, и будем использовать при доказательстве теорем 1 и 2.

Доказательство теоремы 1. Согласно методу аппроксимации ступенчатыми функциями рассмотрим оператор A_T. Как легко проверить, имеет место разложение

\begin{gathered}
\beta_n=\int\limits_0^1 f(x)dF_n(x)-\int\limits_0^1 f(x)dF(x)=
\int\limits_0^1\{f(x)-A_T f(x)\}F_n(x)+ \\
+\int\limits_0^1\{A_T f(x)-f(x)\}dF(x)+
\left\{
\int\limits_0^1 A_T f(x)dF_n(x)-\int\limits_0^1 A_T f(x)dF(x)
\right\}.
\end{gathered} ( 15)

Поскольку

|f(x)-A_T f(x)|\le\delta(f,X_i),\;x\in C_i,
то первое слагаемое в правой части (15) не превосходит
\sum_{C\in T}\delta(f,C)F_n(C), ( 16)
а второе не превосходит
\sum_{C\in T}\delta(f,C)F(C).

Согласно определению оператора A_T третье слагаемое в (15) имеет вид

\sum_{i=1}^m f(x_i)(F_n(C_i)-F(C_i)).

Очевидно, оно не превосходит по модулю

\sup_{x\in X}|f(x)|\sum_{C\in T}|F_n(C)-F(C)|
(здесь используется ограниченность f на X ).

Согласно (16) первое слагаемое в правой части (15) не превосходит

\sum_{C\in T}\delta(f,C)F(C)+\sum_{C\in T}\delta(f,C)|F_n(C)-F(C)|.

Поскольку

\delta(f,C)\le 2\sup_{x\in X}|f(x)|,
то первое слагаемое в правой части (15) не превосходит
\sum_{C\in T}\delta(f,C)F(C)+2\sup_{x\in X}|f(x)|\sum_{C\in T}|F_n(C)-F(C)|.

Из оценок, относящихся к трем слагаемым в разложении (15), следует, что

|\beta_n|\le 2\sum_{C\in T}\delta(f,C)F(C)+3\sup_{x\in X}|f(x)|\sum_{C\in T}|F_n(C)-F(C)|. ( 17)

Используя оценку (17), докажем, что \beta_n\rightarrow 0 при n\rightarrow\infty. Пусть дано \varepsilon>0. Согласно условию интегрируемости функции f по Риману-Стилтьесу, т.е. условию (14), можно указать разбиение T = T(\varepsilon) такое, что

\sum_{C\in T(\varepsilon)}\delta(f,C)F(C)<\frac{\varepsilon}{4}, ( 18)
и в точках y_i, i=1,2,..., m - 1 (см. (12)), функция F непрерывна.

Поскольку

F_n(X_i)=F_n(y_i)-F_n(y_{i-1}),
то из (10) следует, что существует число n = n(\varepsilon) такое, что при n > n(\varepsilon) справедливо неравенство
\sum_{C\in T(varepsilon)}|F_n(C)-F(C)|<\frac{\varepsilon}{6}
\left(\sup_{x\in X}|f(x)|\right)^{-1}. ( 19)

Из (17), (18) и (19) следует, что при n > n(\varepsilon) справедливо неравенство

\left|
\int\limits_0^1 f(x)dF_n(x)-\int\limits_0^1 f(x)dF(x)
\right|
>\varepsilon,
что и требовалось доказать.

Обсудим условие ограниченности f. Если оно не выполнено, то из (10) не всегда следует (11).

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >