Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3994 / 952 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 11:

Статистика нечисловых данных

Проверка согласованности люсианов. Пусть \alpha - нормально распределенный случайный вектор размерности s(s - 1)/2 с нулевым математическим ожиданием и ковариационной матрицей, определенной формулой (14). Согласно результатам "Теоретическая база прикладной статистики" для любой действительнозначной функции f, интегрируемой по Риману по любому гиперкубу, распределения случайных величин f(\xi) и f(\alpha) сближаются при k\rightarrow\infty. Это означает, что вместо распределения f(\xi) для построения критериев проверки гипотез можно использовать распределение f(\alpha). Более того, аналогичный результат верен при замене f на f_n (при слабых внутриматематических условиях регулярности, наложенных на последовательность функций f_n ). Следовательно, для проверки гипотезы согласованности люсианов можно пользоваться любой статистикой f_n(\xi), для которой могут быть вычислены на ЭВМ или заранее табулированы процентные точки распределения f_n(\alpha), аппроксимирующего распределение f_n(\xi).

В частности, можно использовать линейные статистики, представляющие собой скалярное произведение случайного вектора \xi и некоторого заданного детерминированного вектора коэффициентов a, т.е.

(\xi,a)=\sum_{i=1}^k\left(\mu_i\sum_{1\le j<t\le s}a_{jt}(|X_{ij}-X_{it}|-\beta_i)\right). ( 16)

Линейные статистики имеют нулевое математическое ожидание и дисперсию, очевидным образом выражающуюся через матрицу коэффициентов ||a_{ij}|| и числа D, C_1 и C_2, а потому несмещенно и состоятельно оцениваемую с помощью с помощью выписанных выше оценок для D, C_1 и C_2.

Отметим, что (\xi, а) = 0 при a_{ij} \equiv 1, 1 \le j < t \le s. Это следует как из непосредственного вычисления дисперсии (\xi, а), так и из того, что (\xi, а) в рассматриваемом случае выражается через достаточную статистику (\gamma_1, \gamma_2, ..., \gamma_k) и является несмещенной оценкой ноля, а семейство биномиальных распределений полно, т.е. существует только одна несмещенная оценка ноля - тождественный ноль. Таким образом, сумма координат вектора \xi, т.е. непосредственный аналог коэффициента ранговой конкордации Кендалла-Смита из теории ранговой корреляции, тождественно равна 0.

Распределение статистики (16) при альтернативах изучено в работе [ [ 11.34 ] ].

Рассмотрим два частных случая.

Первый частный случай. Проверка согласованности двух определенных люсианов (ответов двух экспертов), j -го и t -го, может осуществляться с помощью статистики (16), в которой отличен от 0 только член с a_{jt} = 1. Оценкой дисперсии является D^*.

Второй частный случай. Пусть необходимо проверить согласованность люсианов с одним из них, скажем, с j -м (например, люсианы отражают мнения экспертов, а j -й из них является наиболее компетентным - по априорной оценке, или "лицом, принимающим решения", или его мнение сильно отличается от мнений остальных). Это можно сделать с помощью статистики (16), в которой

\begin{gathered}
a_{jt} = 1, t = j + 1, j + 2, ..., s; a_{tj} = 1, t = 1, 2, ..., j - 1; \\
a_{qt} =0, q \ne j, t \ne j, 1 \le q < t \le s. 
\end{gathered}

Другими словами, она имеет вид

W=\sum_{t=1}^s d(A_j, A_t)-(s-1)\sum_{i=1}^k\mu_i\beta_i,
где расстояние d между люсианами определено в (10), а \beta_i - в (13) с заменой m на s и \gamma на \gamma_i. Используя полученные ранее несмещенные оценки элементов ковариационной матрицы, нетрудно показать, что несмещенная и состоятельная (в смысле формулы (7) выше) оценка дисперсии W имеет вид
D^*(W)=\sum_{i=1}^k\mu_i^2\frac{\gamma_i(s-\gamma_i)}{s^2}
\{(s-2)^2-4(\gamma_i-1)(s-\gamma_i-1)\}.

Тогда при выполнении некоторых внутриматематических условий регулярности, например, условий (15), распределение статистики

\frac{1}{\sqrt{D^*(W)}}W
сходится при k\rightarrow\infty, s = \text{const} к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1 (при справедливости гипотезы (1) согласованности люсианов).

Статистика (17) наряду со статистикой, предназначенной для проверки гипотезы однородности люсианов, включена в "Методические рекомендации" АМН СССР и УМС Минздрава СССР [ [ 11.18 ] ]. Последнюю статистику не расписываем здесь, поскольку для этого не требуются новые идеи.

Различные подходы к понятию согласованности. Обсудим условия, при выполнении которых люсианы естественно считать согласованными (а экспертов, чьи мнения отражают люсианы, имеющими единое мнение, искаженное случайными ошибками), т.е. обсудим различные методы проверки гипотезы (1).

Полное индивидуальное согласие имеет место, если никакие два эксперта не являются "несогласованными". Уровень значимости определяется описанным выше способом (первый частный случай). Однако наличие одной или нескольких пар экспертов, чьи мнения нельзя считать согласованными, не свидетельствует о необходимости отклонения гипотезы (1), поскольку парных проверок проводится много, а именно, s(s - 1)/2 \ge 6, а способы установления уровня значимости при множественных проверках, зависимых между собой, к настоящему времени плохо разработаны (см. 7.5). Проблема множественных проверок для количественных признаков обсуждается А.А. Любищевым [ [ 11.15 ] , с.36-39], выход дается дисперсионным анализом. Можно брать не все попарные проверки, а только для [s/2] пар люсианов, причем разбиение на пары проводить независимо от принятых люсианами значений, как это делает Т.Н. Дылько [ [ 11.7 ] ]. Тогда для проверки гипотезы (1) на уровне значимости \beta надо брать для проверки в каждой паре уровень значимости \beta, где \beta рассчитывается понятным образом, приближенно \beta = \alpha / [s/2].

Полное согласие в целом означает, что для любого эксперта мнения всех остальных оказываются с ним согласованными при использовании статистики (17) (второй частный случай). Отсутствие подобного согласия для одного или нескольких экспертов не означает отклонения гипотезы согласованности люсианов (1) - по тем же причинам, что и в предыдущем случае.

Минимальное согласие имеют мнения экспертов, когда хотя бы для одного из них гипотеза согласованности не отвергается с помощью статистики (17). В этом случае групповое мнение целесообразно строить, выделяя "ядро", о чем подробнее сказано ниже.

Расстояние d между люсианами (см. формулу (10)) введено аксиоматически в 1.6 (напомним, что реализацию люсиана можно рассматривать как подмножество конечного множества). Там же из иной системы аксиом выведено другое расстояние - D -метрика. Рассмотрим проверку согласованности люсианов с использованием D -метрики. В этом случае расстояние между люсианами A_1 и A_2 имеет вид

D(A_1,A_2)=\left\{
\begin{gathered}
\frac{d(A_1,A_2)}{t(A_1,A_2)}, T(A_1,A_2)\ne 0, \\
0,\quad T(A_1,A_2)= 0,
\end{gathered}
\right.
где
T(A_1,A_2)=\sum_{i=1}^k\mu_i\max(X_{i1},X_{i2}).

Ясно, что теория, основанная на D -метрике, существенно сложнее теории, основанной на метрике d. Ясно, что описанный выше метод проверки гипотез о люсианах в асимптотике растущей размерности применить не удается. Чтобы продемонстрировать существенное усложнение ситуации, опишем лишь асимптотическое поведение расстояния D(A_1, A_2) между двумя люсианами.

Теорема [ [ 1.18 ] ]. Пусть p_{1i} и p_{2i} отделены от 0 и 1, а \mu_i отделены от 0 и +\infty. Тогда расстояние D(A_1, A_2) между люсианами A_1 и A_2 асимптотически нормально при k\rightarrow\infty с параметрами

t_k=\frac{N_1}{N_2},\;q_k=\frac{N_1}{N_2}\sqrt{\frac{N_3}{N_1^2}+\frac{N_4}{N_2^2}-2\frac{N_5}{N_1N_2}},
т.е. для любого числа x справедливо предельное соотношение
\lim_{k\rightarrow\infty}P
\left\{
\frac{D(A_1,A_2)-t_k}{q_k}\le x
\right\}
=\Phi(x),
где \Phi(х) - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1.

Величины N_j, j = 1, 2, 2, 4, 5, выражаются через \mu_i и величины

p_{3i} = p_{1i} + p_{2i} - 2p_{1i} p_{2i}, p_{4i} = p_{1i} + p_{2i} - p_{1i} p_{2i}
следующим образом:
\begin{gathered}
N_1=\sum_{i=1}^k\mu_i p_{3i}, \;N_2=\sum_{i=1}^k\mu_ip_{4i},\;N_3=\sum_{i=1}^k\mu_i^2p_{3i}(1-p_{3i}), \\
N_4=\sum_{i=1}^k\mu_i^2 p_{4i}(1-p_{4i}), N_5=\sum_{i=1}^k\mu_i^2 p_{3i}(2-p_{4i}).
\end{gathered}

Следствие 1. Пусть p_{1i} = p_1 и p_{2i} = p_2 при всех i, k, причем p_1 и p_2 лежат внутри отрезка (0; 1). Пусть \mu_i отделены от 0 и +\infty. Тогда расстояние D(A_1, A_2) между люсианами A_1 и A_2 асимптотически нормально при k\rightarrow\infty с параметрами

t_k=\frac{p_3}{p_4},\;q_k^2=\frac{p_1p_2p_3}{p_4^3}
\frac{\sum\limits_{i=1}^k \mu_i^2}{\left(\sum\limits_{i=1}^k\mu_i\right)^2},
где
p_3 = p_1 + p_2 - 2p_1p_2, p_4 = p_1 + p_2 - p_1p_2.

Следствие 2. Пусть в предположениях следствия 1 p_1 = p_2 = p и \mu_i = 1 при всех i, k. Тогда

t_k=\frac{2(1-p)}{2-p},\;q_k=\frac{2(1-p)}{k(2-p)^3}.

Замечание. Пусть в следствии 2 p = 1/2. Тогда A_1 и A_2 - люсианы, равномерно распределенные на множестве всех последовательностей из 0 и 1 длины k. В частности, эти люсианы могут соответствовать независимым случайным множествам, равномерно распределенным на совокупности всех подмножеств конечного множества из k элементов, или независимым толерантностям, равномерно распределенным на множестве всех толерантностей, определенных на множества из m элементов, где m(m - 1)/2 = k. По следствию 2 расстояние между люсианами D(A_1, A_2) асимптотически нормально с математическим ожиданием 0,667 и дисперсией 0,296 k^{-1}. Напомним, что распределения коэффициентов ранговой корреляции Кендалла и Спирмена изучены (в основном) лишь при условии равномерности распределения случайных ранжировок на множестве всех возможных ранжировок фиксированного числа объектов. Для теории люсианов случай равномерности распределения - весьма частный, а для теории ранжировок - основной. Как уже говорилось, отказ от равномерности - привлекательная черта теории люсианов.

Классификация люсианов. Отсутствие согласованности в одном из перечисленных выше смыслов позволяет сделать заключение о целесообразности разбиения всех люсианов (например, если они выражают мнения экспертов) на группы близких между собой, т.е. о целесообразности классификации люсианов, точнее, их кластер-анализа. Поскольку введена мера близости между люсианами d(A_1, A_2) или D(A_1, A_2), то напрашивается следующий способ действий: провести разбиение на кластеры с помощью одного из алгоритмов, основанных на использовании меры близости, а затем проверить мнения в каждом классе на согласованность. Однако применение того или иного алгоритма кластер-анализа, вообще говоря, может нарушить предпосылки описанных выше способов проверки согласованности (ср. обсуждение похожей проблемы, связанной с применением регрессионного анализа после кластер-анализа, в 7.5). Поэтому опишем методы классификации, опирающиеся на результаты проверки согласованности.

Разбиение на кластеры, внутри каждого из которых имеет место "полное индивидуальное согласие", может быть проведено с помощью агломеративного иерархического алгоритма "дальнего соседа", дополненного ограничением сверху на диаметр кластера. Это ограничение строится из статистических соображений, в отличие от методов, описанных в "Многомерный статистический анализ" . При этом в качестве меры близости между люсианами используют не расстояния d или D, а модуль статистики, применяемой для проверки согласованности двух люсианов, т.е. статистики (16), в которой только одно из чисел a_{ij} отлично от 0. Упомянутое ограничение таково: диаметр кластера не должен превосходить процентной точки предельного распределения, соответствующей используемому при анализе рассматриваемых данных уровню значимости (можно порекомендовать 5%-й уровень значимости). В результате работы алгоритма получим кластеры, в которых имеется "полное индивидуальное согласие", причем объединение любых двух кластеров приведет к исчезновению этого свойства у объединения. Поскольку способ выделения итогового разбиения из иерархического дерева разбиений имеет вероятностно-статистическое обоснование, изложенное выше, то описанный метод классификации люсианов следует считать - в терминологии [ [ 2.18 ] ] - не методом анализа данных (т.е. эвристическим), а вероятностно-статистическим (т.е. научно обоснованным) методом.

Кластеры "с полным согласием в целом" могут быть получены с помощью агломеративного иерархического алгоритма, в котором мерой близости двух кластеров является максимальное значение модуля статистики (17), когда j пробегает номера мнений (люсианов), вошедших в объединение рассматриваемых кластеров, а суммирование в (17) проводится по всем люсианам в этом объединении. Ограничение сверху на меру близости кластеров определяется процентной точкой предельного распределения статистики W, заданной формулой (17).

Кластеры "с минимальным согласием" можно получить, при фиксированном j выделяя совокупность люсианов, согласованных с A_j в смысле статистики W з (17).

На основе двух рассмотренных выше частных случаев линейной статистики (16) можно строить и другие способы классификации. Например, для каждого люсиана A_m можно выделить кластер "типа шара" (см. "Многомерный статистический анализ" ) из люсианов, попарно согласованных с A_m. Все такие способы имеют вероятностно-статистическое обоснование, и потому к ним относится сказанное выше относительно выделения кластеров "с полным индивидуальным согласием".

Замечание. Проверка согласованности приведенными выше критериями может привести к отрицательному результату двумя способами - либо значение статистики окажется слишком большим, либо слишком малым. Первое означает, что гипотеза согласованности люсианов (1) неверна, вторая - что неверна вероятностная модель реального явления или процесса, основанная на люсианах. С необходимостью учета второй возможности мы столкнулись при применении теории люсианов для анализа данных топокарт, полученных при проведении кинетокардиографии у больных инфарктом миокарда [ [ 11.1 ] , [ 11.32 ] ].

Нахождение среднего. В результате классификации получаем согласованные (в одном из указанных выше смыслов) группы люсианов. Для каждой из них полезно рассмотреть среднее. В зависимости от конкретных приложений в прикладных исследованиях применяют либо среднее в виде последовательностей 0 и 1, т.е. в виде реализации люсиана, либо среднее в виде последовательности оценок вероятностей (p_1, p_2, ..., p_k). Кроме того, оно может находиться либо с помощью методов, подавляющих "засорения" ("выбросы"), либо без учета возможности засорения. Рассмотрим все четыре возможности.

В соответствии с подходом в 5.5 при отсутствии засорения эмпирическое среднее ищется как решение задачи

\sum_{j=1}^m (A_j,A)\rightarrow\min_{A\in X}, ( 18)
где A_1, A_2, ..., A_m - люсианы, входящие в рассматриваемый кластер, X - множество, которому принадлежит среднее.

Если X - совокупность последовательностей из 0 и 1, то правило (18) дает решение по правилу большинства (подробнее см. 5.5).

Если X - пространство последовательностей вероятностей, то решением задачи (18) является та же последовательность 0 и 1, что и в первом случае. Поэтому в качестве среднего вместо решения задачи (18) целесообразно рассматривать просто последовательность частот.

Асимптотическое поведение средних при m\rightarrow\infty вытекает из законов больших чисел (5.5), теорем, описывающих асимптотику решений экстремальных статистических задач (см. 6.3), и теоремы Муавра-Лапласа соответственно.

В работе [ [ 11.36 ] ] при анализе результатов эксперимента показано, что ответы реальных экспертов разбиваются на многочисленное "ядро", расположенное вокруг истинного мнения, и отдельных "диссидентов", разбросанных по периферии. Причем оценка истинного мнения по "ядру" является более точной, чем по всей совокупности, поскольку мнения "диссидентов" не отражают истинного мнения. Поэтому для построения группового мнения, в том числе среднего для совокупности люсианов, отражающих мнения экспертов, естественно применять методы, подавляющие мнения "диссидентов", что соответствует методологии робастности.

"Ядро" может быть построено следующим образом. Решается задача (18) с конечным множеством X, состоящим из всех исходных люсианов: X = \{A_1, A_2, ..., A_m\}, т.е. из результатов наблюдений выбирается тот, что находится "в центре" совокупности результатов наблюдений. Пусть A_j является решением этой задачи. В качестве ядра предлагается рассматривать совокупность всех люсианов, которые попарно согласованы с A_j. Другой вариант: рассматривается кластер с "полным внутренним согласием", куда входит A_j. (При этом, очевидно, должно быть изменено (уменьшено) критическое значение критерия по сравнению с процедурой, приведшей к выделению группы, нахождением группового мнения которой мы занимаемся.) Затем групповое мнение ищется лишь для элементов "ядра". Описанная процедура особенно необходима в случае, когда не было предварительного разбиения совокупности люсианов на группы согласованных друг с другом. Новым по сравнению с [ [ 11.36 ] ] является придание вероятностного смысла порогу, выделяющему "ядро".

Обобщая идею выделения "ядра", приходим к "взвешенным итеративным методам оценивания среднего" (ВИМОП - оценкам среднего), введенным и изученным в работе [ [ 11.26 ] ]. Их применение для люсианов не требует специальных рассмотрений.

Таким образом, в настоящем параграфе представлен ряд методов обработки специального вида объектов нечисловой природы - люсианов. При этом для решения одной и той же задачи, например, задачи классификации, предлагается ряд методов, точно так же, как для решения классической задачи проверки однородности двух независимых выборок имеется большое число методов (см. "Статистический анализ числовых величин" ).

Анастасия Маркова
Анастасия Маркова

Здравствуйте!

4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1.

Сегодня вижу, что я вне курса! Почему так произошло?