Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 4079 / 1033 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 11:

Статистика нечисловых данных

11.3. Теория люсианов

Асимптотика растущей размерности и проверяемые гипотезы. Продолжим изучение модели порождения данных (6) - (7) предыдущего параграфа. Будем использовать асимптотику s = \text{const}, k\rightarrow\infty. При этом число неизвестных параметров растет пропорционально объему данных.

В последние десятилетия (с начала 1970-х годов) в прикладной статистике все большее распространение получают постановки, в которых число неизвестных параметров растет вместе с объемом выборки. Результаты, полученные в подобных постановках, называют найденными "в асимптотике растущей размерности" или "в асимптотике А.Н.Колмогорова" [ [ 5.15 ] ], перенося терминологию исследований по дискриминантному анализу на общий случай. Как известно, в задаче дискриминации в две совокупности академик АН СССР А.Н. Колмогоров (1903 - 1987) предложил рассматривать асимптотику

A\rightarrow\infty, N_i\rightarrow\infty, \frac{A}{N_i}\rightarrow\lambda_i>0, i=1,2,
где A - размерность пространства (число признаков), N_i - объемы обучающих выборок, \lambda_i - константы, i = 1,2. Эта асимптотика естественна при обработке организационно-экономических, социологических, медицинских данных, поскольку число признаков, определяемых для каждого изучаемого объекта, респондента или пациента, обычно имеет тот же порядок, что и объем выборки.

Пусть A_1, A_2, ..., A_s - независимые (между собой) люсианы с векторами параметров P_1, P_2, ..., P_s соответственно. Гипотезой согласованности будем называть гипотезу

P_1=P_2=...=P_s. ( 1)

Для ранжировок и разбиений под согласованностью понимают более частную гипотезу, предполагающую отрицание равномерности распределений (т.е. одинаковой вероятности появления каждой возможной ранжировки или разбиения), что соответствует замене проверки гипотезы (1) на проверку гипотезы

P_1 = P_2 = ...= P_s = (1/2, 1/2, ..., 1/2). ( 2)

Как разъяснено в [ [ 1.15 ] , [ 11.21 ] ], гипотеза (1) более адекватна конкретным задачам обработки реальных данных, например, экспертных оценок, чем (2). Поэтому полученные от экспертов данные, содержащие противоречия, целесообразно рассматривать как люсианы и проверять гипотезу (1), а не подбирать ближайшие ранжировки или разбиения, после чего проверять согласованность методами теории случайных ранжировок или разбиений, как иногда рекомендуется.

Пусть A_1, A_2, ..., A_m и B_1, B_2, ..., B_n - независимые в совокупности люсианы длины k, одинаково распределенные в каждой группе с параметрами P(A) и P(B) соответственно. Гипотезой однородности называется гипотеза

P(A) = P(B).

В асимптотике растущей размерности принимаем, что m и n постоянны, а k\rightarrow\infty.

Пусть (A_i, B_i), i = 1, 2, ..., s - последовательность (фиксированной длины) пар люсианов. Пары предполагаются независимыми между собой. Требуется проверить гипотезу независимости A_i и B_i, т.е. внутри пар. В ранее введенных обозначениях гипотеза независимости - это гипотеза

\begin{gathered}
P(X_{ij}(A) = 1, X_{ij}(B) = 1) = P(X_{ij}(A) = 1)P(X_{ij}(B) = 1), \\
i = 1, 2, ..., s; j = 1, 2, ..., k,
\end{gathered}
проверяемая в предположении
P_1(A) = P_2(A) = ... = P_s(A), P_1(B) = P_2(B) = ... = P_s(B).

В настоящем параграфе излагается метод проверки гипотез о люсианах в асимптотике растущей размерности на примере гипотезы согласованности. Эти результаты получены в [ [ 1.15 ] , [ 5.13 ] , [ 5.15 ] ]. Дальнейшее изучение проведено нашими учениками Г.В. Рыдановой, Т.Н. Дылько, Г.В. Раушенбахом, О.В. Филипповым, А.М. Никифоровым и др. Гипотеза однородности рассмотрена, например, в [ [ 5.13 ] ]. Методы проверки гипотезы однородности люсианов развиты и изучены Г.В. Рыдановой [ [ 11.34 ] ] на основе описанного ниже подхода. Она, помимо доказательства предельных теорем, подробно изучила скорость сходимости методом статистических испытаний.

Методы проверки согласованности люсианов нашли практическое применение, в частности, в медицине. Они были использованы в кардиологии при анализе данных кинетотопографии [ [ 11.1 ] , [ 5.13 ] , [ 11.32 ] ]. Эти методы включены в методические рекомендации Академии медицинских наук СССР и Ученого медицинского совета Минздрава СССР по управлению научными медицинскими исследованиями [ [ 11.18 ] ].

Метод проверки гипотез о люсианах в асимптотике растущей размерности. Будем использовать дальнейшее развитие метода, описанного в 7.4. Почему нельзя использовать иные подходы, имеющиеся в математической статистике? Поскольку число неизвестных параметров растет вместе с объемом выборки и пропорционально ему, эти параметры не являются мешающими. Отметим, что согласно [ [ 11.13 ] ] равномерно наиболее мощных критериев не существует, поскольку параметров много. Не останавливаясь на других подходах математической статистики, констатируем необходимость применения метода проверки гипотез по совокупности малых выборок.

Пусть имеются k выборок, независимых между собой. Пусть при справедливости нулевой гипотезы по каждой из выборок можно построить несмещенную оценку \xi\in R^p векторного нуля 0\in R^p, где p \ge 1, i = 1, 2, ..., k. Другими словами, пусть распределение i -ой выборки описывается параметром \theta_i, лежащим в произвольном пространстве, а нулевая гипотеза, очевидно, состоит в том, что \theta_i\in \Theta_{0i}, где \Theta_{0i} - собственное подмножество множества \{\theta_i\}. Предполагается, что можно по i -ой выборке вычислить статистику \xi_i такую, что

M\xi_i=0 ( 3)
при всех \theta_i\in \Theta_{0i}. Очевидно, \xi_i \equiv 0 удовлетворяют (3). Однако для рассматриваемого метода необходимо, чтобы при всех \theta_i\in \Theta_{0i} ковариационная матрица вектора \xi_i была ненулевой:
Cov(\xi_i)=M(\xi_i^T\xi_i)\ne 0. ( 4)

В теории математической статистики иногда используют понятие полноты параметрического семейства распределений. Если рассматриваемое семейство является полным - а так и есть для люсианов, - то не существует достаточной статистики, удовлетворяющей одновременно условиям (3) и (4) (см., например, [ [ 11.4 ] , \S \S 2.12-2.14]). Поэтому будем использовать статистики, не являющиеся достаточными.

Следующее предположение - ковариационные матрицы статистик \xi_i, т.е. Cov(\xi_i), также допускают несмещенные оценки S_i по тем же выборкам:

M(S_i)=Cov(\xi_i) ( 5)
при всех \theta_i\in \Theta_{0i}.

Рассматриваемый метод основан на том, что поскольку случайные векторы \xi_i определяются по независимым между собой выборкам, то \xi_i независимы в совокупности, а потому случайный вектор

\xi=\sum_{i=1}^k\xi_i ( 6)
является суммой независимых случайных векторов, имеет в силу (3) нулевое математическое ожидание, а его ковариационная матрица равна
C_k= Cov(\xi_i).

При справедливости многомерной центральной предельной теоремы (простейшее условие справедливости этой теоремы для \xi_i в случае люсианов - отделенность от 0 и 1 всех элементов матриц P_j, равномерная по s и k ) вектор \xi является асимптотически нормальным, т.е. при k\rightarrow\infty распределение \xi сближается (в смысле, раскрытом в "Теоретическая база прикладной статистики" ) с многомерным нормальным распределением N(0; C_k ).

Однако эту сходимость нельзя непосредственно использовать для проверки исходной гипотезы, поскольку матрица C_k неизвестна статистику. Необходимо оценить эту матрицу по статистическим данным. В силу (5) в качестве оценки C_k естественно использовать

C_k^*=\sum_{i=1}^k S_i.

Простейшая формулировка условий справедливости такой замены - предположение о том, что к последовательности S_i можно применить закон больших чисел. А именно, пусть существует неотрицательно определенная матрица C такая, что при k\rightarrow\infty

\frac{1}{k}(C_k^*-C_k)\rightarrow 0,\;\frac{1}{k}C_k\rightarrow C. ( 7)

В силу результатов "Теоретическая база прикладной статистики" из асимптотической нормальности \xi и соотношений (7) следует, что распределение статистики

\eta=\frac{1}{\sqrt{k}}\xi
сходится к нормальному распределению N(0; C). При этом, если некоторый случайный вектор \tau имеет распределение N(0; C), то распределение случайной величины q(\eta) сходится к распределению q(\tau) для произвольной интегрируемой по Риману по любому кубу функции q: R^p > R^1. Для проверки нулевой гипотезы предлагается пользоваться статистикой q(\eta) при подходящей функции q, а процентные точки брать соответственно распределению q(\tau). В этом и состоит рассматриваемый метод проверки гипотез о люсианах в асимптотике растущей размерности. Для реальных расчетов целесообразно использовать линейные или квадратические функции q от координат вектора \eta.

Отклонения от нулевой гипотезы приводят, как правило, к нарушению равенств (3) и (4). Случайный вектор ? при этом обычно остается асимптотически нормальным, но с другими параметрами, что может быть обычным образом использовано для построения оптимального решающего правила, соответствующего заданной альтернативе (например, согласно лемме Неймана-Пирсона). Поведение при альтернативах для некоторых гипотез изучено в [ 22, 34 ], здесь его не будем рассматривать, поскольку вычисление мощности не требует новых идей.

Несмещенные оценки параметров асимптотического распределения вектора попарных расстояний. Применим описанный выше метод для проверки гипотезы согласованности люсианов. Исходные данные - люсианы

A_j = (X_{1j}, X_{2j}, ..., X_{kj}), j=1,2,...,s.

В качестве i -й выборки возьмем совокупность испытаний Бернулли, стоящих на i -м месте в рассматриваемых люсианах:

X_{i1}, X_{i2}, ..., X_{is}. ( 8)

При справедливости нулевой гипотезы в (8) стоят независимые испытания Бернулли с одной и той же вероятностью успеха p_i ; при нарушении нулевой гипотезы согласованности независимость испытаний Бернулли сохраняется, но вероятности успеха могут различаться.

В качестве вектора \xi, на основе которого строятся статистики для проверки согласованности, будем использовать вектор попарных расстояний между люсианами

\xi=\{d(A_p,A_q), 1\le p<q\le s\}, ( 9)
в котором пары (p, q) упорядочены лексикографически,
d(A_p,A_q)=\sum_{i=1}^k\mu_i|X_{ip}-X_{iq}|,\;\mu_i>0. ( 10)

В "Различные виды статистических данных" это расстояние выведено из некоторой системы аксиом (напомним, что совокупность векторов из 0 и 1 размерности k находится во взаимнооднозначном соответствии с совокупностью подмножеств множества из k элементов; при этом 1 соответствует тому, что элемент входит в подмножество, а 0 - что не входит).

Из вида расстояния в формуле (10) следует, что введенный в (9) вектор \xi имеет вид (6) с

\xi_i = \mu_i\{|X_{ip} - X_{iq}|, 1\le p<q\le s\}. ( 11)

Следовательно, для применения описанного выше метода проверки гипотез о люсианах в асимптотике растущей размерности достаточно построить на основе вектора \xi_i из (11) несмещенную оценку 0 и найти несмещенную оценку ковариационной матрицы этой оценки.

Чтобы применить общую схему, необходимо начать с построения статистики \beta такой, чтобы при всех p_i имело место равенство

M(|X_{ip}-X_{iq}|-\beta)-0,\;1\le p<q\le s.

Элементарный расчет дает:

M|X_{ip}-X_{iq}|=2p_i(1-p_i).

Как известно [ [ 11.14 ] , с.56-57], несмещенная оценка многочлена

f(p)=\sum_{h=0}^m a_h p^h
по результатам m независимых испытаний Бернулли с вероятностью успеха p в каждом имеет вид
f^*(p)=\sum_{h=0}^m a_h\frac{\gamma^{[h]}}{m^{[h]}}, ( 12)
где \gamma - общее число успехов в m испытаниях и использовано обозначение
n^{[h]} = n(n - 1)...(n - h + 1).

Ясно, что многочлены степени m + 1 и более высокой невозможно несмещенно оценить по результатам m испытаний.

В случае f(p) = 2p(1 - p) в соответствии с (12) получаем несмещенную оценку

\beta=\frac{2}{m-1}\left(\gamma-\frac{\gamma^2}{m}\right). ( 13)

Таким образом, можно применять общий метод проверки гипотез о люсианах в асимптотике растущей размерности с

\xi_i=\mu_i(\{|X_{ip}-X_{iq}|,\;1\le p<q\le s\}=\beta_i e),
где коэффициенты \beta_i определяются с помощью формулы (13) по \gamma_i - общему числу единиц, стоящих на i -м месте в люсианах A_1, A_2, ..., A_s, а e - вектор размерности s(s - 1)/2 с единичными координатами. Тогда несмещенная оценка 0, о которой идет речь в методе проверки гипотез по совокупности малых выборок, имеет вид
\xi=\{d(A-p,A_q),1\le p<q\le s\}=\sum_{i=1}^k\mu_i\beta_i e.

Для использования статистики типа \eta, распределение которой приближается с помощью нормального распределения

N\left(0;\frac{1}{k}\sum_{i=1}^k S_i\right),
необходимо уметь несмещенно оценивать ковариационные матрицы Cov(\xi_i). Для этого достаточно найти математические ожидания элементов матрицы M(\xi_i^T,\xi_i) как функции (многочлены) от p_i, а затем использовать формулу (12) для получения несмещенных оценок.

Вычисление матрицы M(\xi_i^T,\xi_i) хотя и трудоемко, но не содержит каких-либо принципиальных трудностей. В [ [ 5.13 ] ] вычислены диагональные элементы рассматриваемой матрицы. Вычисление занимает около 2,5 страниц (с.299-301), Поэтому здесь приведен только окончательный итог.

Обозначим для краткости p_i = p. В [ [ 5.13 ] ] показано, что

D=D(|X_{ip}-X_{iq}|-\beta_i)=\left(2-\frac{4}{s}\right)p(1-p)-4\frac{(s-2)(s-3)}{s(s-1)}p^2(1-p)^2.

Если двухэлементные множества \{p, q\} и \{r, t\} не имеют ни одного общего элемента, то

C_1=M(|X_{ip}-X_{iq}|-\beta_i)(|X_{ir}-X_{it}|-\beta_i)=-\frac{4}{s}p(1-p)+
\frac{8(2s-3)}{s(s-1)}p^2(1-p)^2,
а если имеют ровно один общий элемент, то
C_2=M(|X_{ip}-X_{iq}|-\beta_i)(|X_{ir}-X_{it}|-\beta_i)=
\left(1-\frac{4}{s}\right)p(1-p)-
4\frac{(s-2)(s-3)}{s(s-1)}p^2(1-p)^2.

С помощью формулы (12) получаем несмещенные оценки для D, C_1 и C_2 как многочленов от p:

\begin{gathered}
D^*=\frac{2\gamma_i(s-\gamma_i)}{s^2(s-1)^2}\{(s-2)(s-1)-2(\gamma_i-1)(s-\gamma_i-1)\}, \\
C_1^*=\frac{4\gamma_i(s-\gamma_i)}{s^2(s-1)}
\left\{\frac{2(2s-3)(\gamma_i-1)(s-\gamma_i-1)}{(s-1)(s-2)(s-3)}-1\right\},\\
C_2^*=\frac{\gamma_i(s-\gamma_i)}{s^2(s-1)}\{(s-4)(s-1)-4(\gamma_i-1)(s-\gamma_i-1)\}.
\end{gathered}

С помощью трех чисел D^*, C_1^*, C_2^* выписывается несмещенная оценка матрицы ковариаций вектора \xi_i/\mu_i, которую обозначим B_i. Тогда асимптотически нормальный вектор \xi имеет нулевое математическое ожидание и ковариационную матрицу, несмещенно и состоятельно (в смысле соотношений (7)) оцениваемую с помощью

Cov(\xi)^*=\sum_{i=1}^k\mu_i^2 B_i. ( 14)

Асимптотическая нормальность доказывается, естественно, в схеме серий. Достаточным условием является существование положительной константы \varepsilon такой, что

\mu_i\ge\varepsilon,\frac{1}{\mu_i}\ge\varepsilon,p_i\ge\varepsilon,1-p_i\ge\varepsilon ( 15)
при всех k и i, 1\le i\le k.

Поскольку D, C_1 и C_2 являются многочленами четвертой степени от p, то несмещенные оценки для них существуют при s\ge 4. Если же s< 4, то несмещенных оценок не существует. Поэтому указанным методом проверять согласованность можно лишь при числе люсианов s\ge 4.

Анастасия Маркова
Анастасия Маркова

Здравствуйте!

4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1.

Сегодня вижу, что я вне курса! Почему так произошло?