НОУ ИНТУИТ | Прикладная статистика. Лекция 5: Описание данных

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 09.11.2009 | Уровень: для всех | Доступ: свободно

|

Вам нравится? Нравится 61 студенту

| Поделиться |

Поддержать

| Скачать электронную книгу

Бинарные отношения. Теорию ранговой корреляции (см. "Многомерный статистический анализ" ) можно рассматривать как теорию статистического анализа случайных ранжировок, равномерно распределенных на множестве всех ранжировок. Так, при обработке данных классического психофизического эксперимента по упорядочению кубиков соответственно их весу, подробно описанного в работе [ [ 5.27 ] ], оказалась адекватной следующая так называемая -модель ранжирования.

Пусть имеется объектов A_1,A_2,...,A_t причем каждому объекту A_i соответствует число a_i , описывающее его положение на шкале изучаемого признака. Испытуемый упорядочивает объекты так, как если бы оценивал соответствующие им значения с ошибками, т.е. находил $y_i=a_i+\varepsilon_i, i=1,2,...,n$ , где $\varepsilon_i$ - ошибка при рассмотрении -го объекта, а затем располагал бы объекты в том порядке, в каком располагаются y_1,y_2,...,y_t . В этом случае вероятность появления упорядочения $A_{i1},A_{i2},...,A_{it}$ есть $P(y_{i1}<y_{i2}<...<y_{it})$ , а ранги R_1,R_2,...,R_t объектов являются рангами случайных величин , полученными при их упорядочении в порядке возрастания. Кроме того, для простоты расчетов в модели предполагается, что ошибки испытуемого $\varepsilon_1, \varepsilon_2, ...,\varepsilon_t$ независимы и имеют нормальное распределение с математическим ожиданием 0 и дисперсией $\sigma^2$ .

Как уже отмечалось в "Различные виды статистических данных" , бинарное отношение на множестве из элементов полностью описывается матрицей из 0 и 1 порядка $t\times t$ . Поэтому задать распределение случайного бинарного отношения - это то же самое, что задать распределение вероятностей на множестве всех матриц описанного вида, состоящем из $2^{t^2}$ элементов. Пространства ранжировок, разбиений, толерантностей зачастую удобно считать подпространствами пространства всех бинарных отношений, тогда распределения вероятностей на них - частные случаи описанного выше распределения, выделенные тем, что вероятности принадлежности соответствующим подпространствам равны 1. Распределение произвольного бинарного отношения описывается $2^{t^2}-1$ параметрами, распределение случайной ранжировки (без связей) - (t! - 1) параметрами, а описанная выше -модель ранжирования - (t + 1) параметром. При t = 4 эти числа равны соответственно 65535, 23 и 5. Первое из этих чисел показывает практическую невозможность использования в вероятностно-статистических моделях произвольных бинарных отношений, поскольку по имеющимся данным невозможно оценить столь большое число параметров. Приходится ограничиваться теми или иными семействами бинарных отношений - ранжировками, разбиениями, толерантностями и др. Модель произвольной случайной ранжировки при t = 5 описывается 119 параметрами, при t = 6 - уже 719 параметрами, при t = 7 число параметров достигает 5049, что уже явно находится за пределами возможности оценивания. В то же время -модель ранжирования при t = 7 описывается всего 8-ю параметрами, а потому может быть кандидатом для практического использования.

Что естественно предположить относительно распределения случайного элемента со значениями в том или ином пространстве бинарных отношений? Зачастую целесообразно считать, что распределение имеет некий центр, попадание в который наиболее вероятно, а по мере удаления от центра вероятности убывают. Это соответствует естественной модели измерения с ошибкой; в классическом одномерном случае результат подобного измерения обычно описывается унимодальной симметричной плотностью, монотонно возрастающей слева от модального значения, в котором плотность максимальна, и монотонно убывающей справа от него. Чтобы ввести понятие монотонного распределения в пространстве бинарных отношений, будем исходить из метрики в этом пространстве. Воспользовавшись тем, что бинарные отношения и однозначно описываются матрицами $||c_{ij}||$ и $||d_{ij}||$ порядка $t\times t$ соответственно, рассмотрим расстояние (в несколько другой терминологии - метрику) в пространстве бинарных отношений

$d(C,D)=\sum_{1\le i,j\le t}|c_{ij}-d_{ij}|.$

( 4)

Метрика (4) в различных пространствах бинарных отношений - ранжировок, разбиений, толерантностей - может быть введена с помощью соответствующих систем аксиом (см. "Различные виды статистических данных" ). В настоящее время метрику (4) обычно называют расстоянием Кемени в честь американского исследователя Джона Кемени, впервые получившего эту метрику исходя из предложенной им системы аксиом для расстояния между упорядочениями (ранжировками).

В статистике нечисловых данных используются и иные метрики, отличающиеся от расстояния Кемени. Более того, для использования понятия монотонного распределения, о котором сейчас идет речь, нет необходимости требовать выполнения неравенства треугольника, а достаточно, чтобы d(C,D) можно было рассматривать как показатель различия. Под показателем различия понимаем такую функцию d(C,D) двух бинарных отношений и , что d(C,D) = 0 при C = D и увеличение d(C,D) интерпретируется как возрастание различия между и .

Определение 1. Распределение бинарного отношения называется монотонным с центром в C_0 относительно расстояния (показателя различия) , если из d(C,C_0) < d(D,C_0) следует, что P(X=C) > P(X=D) .

Это определение впервые введено в монографии [ [ 1.15 ] , c.196]. Оно может использоваться в любых пространствах бинарных отношений и, более того, в любых пространствах из конечного числа элементов, лишь бы в них была введена функция d(C,D) - показатель различия элементов и этого пространства. Монотонное распределение унимодально, мода находится в C_0 .

Определение 2. Распределение бинарного отношения называется симметричным относительно расстояния с центром в C_0 , если существует такая функция $f:R_+^1\rightarrow[0,1]$ что

( 5)

Если распределение монотонно и таково, что из d(C,C_0)=d(D,C_0) следует P(X=C)=P(X=D) , то оно симметрично. Если функция в формуле (5) монотонно строго убывает, то соответствующее распределение монотонно в смысле определения 1.

Поскольку толерантность на множестве из элементов задается 0,5t(t-1) элементами $\delta_{ij}$ матрицы из 0 и 1 порядка $t\times t$ , лежащими выше главной диагонали, то распределение на множестве толерантностей задается в общем случае $2^{0,5t(t-1)}$ параметрами. Естественно выделить семейство распределений, соответствующее независимым элементам матрицы. Оно задается бернуллиевским вектором (люсианом) с 0,5t(t-1) параметрами (выше бернуллиевские вектора рассмотрены подробнее). Математическая техника, необходимая для изучения толерантностей с независимыми элементами, существенно проще, чем в случае ранжировок и разбиений. Здесь легко отказаться от условия равномерности распределения. Этому условию соответствует $P(\delta_{ij}=1)=p_{ij}\equiv 1/2$ , в то время как статистические методы анализа люсианов, развитые в статистике нечисловых данных (см., например, работы [ , , ]) не налагают никаких существенных ограничений на $p_{ij}$ .

Как уже отмечалось, при обработке мнений экспертов сначала проверяют согласованность. В частности, если мнения экспертов описываются монотонными распределениями, то для согласованности необходимо совпадение центров этих распределений. К сожалению, классические методы проверки согласованности для ранжировок, основанные на коэффициентах ранговой корреляции и конкордации, позволяют лишь отвергнуть гипотезу о равнораспределенности. Но не установить, можно ли считать, что центры соответствующих экспертам распределений совпадают или же, например, существует две группы экспертов, каждая со своим центром. Теория случайных толерантностей лишена этого недостатка. Отсюда вытекают следующие практические рекомендации.

Пусть цель обработки экспертных данных состоит в получении ранжировки, отражающей групповое мнение. Однако согласно рекомендуемой процедуре экспертного опроса пусть эксперты не упорядочивают объекты, а проводят парные сравнения каждого из рассматриваемых объектов со всеми остальными, причем ровно один раз. Тогда ответ эксперта - толерантность, но, вообще говоря, не ранжировка, поскольку в ответах эксперта может нарушаться транзитивность.

Возможны два пути обработки данных. Первый - превратить ответ эксперта в ранжировку (тем или иным способом "спроектировав" его на пространство ранжировок), а затем проверять согласованность ранжировок с помощью известных критериев. При этом от толерантности перейти к ранжировке можно, например, так. Будем выбирать ближайшую (в смысле применяемого расстояния) матрицу к матрице ответов эксперта из всех, соответствующих ранжировкам без связей.

Второй путь - проверить согласованность случайных толерантностей, а групповое мнение искать с помощью медианы Кемени (подробнее см. "Статистика нечисловых данных" ) непосредственно по исходным данным, т.е. по толерантностям. Групповое мнение при этом может быть найдено в пространстве ранжировок. Второй путь мы считаем более предпочтительным, поскольку при этом обеспечивается более адекватная проверка согласованности и исключается процедура укладывания мнения эксперта в "прокрустово ложе" ранжировки (эта процедура может приводить как к потере информации, так и к принципиально неверным выводам, вызванным искажениями мнений экспертов).

Области применения статистики бинарных отношений многообразны: ранговая корреляция - оценка величины связи между переменными, измеренными в порядковой шкале; анализ экспертных или экспериментальных упорядочений; анализ разбиений технико-экономических показателей на группы сходных между собой; обработка данных о сходстве (взаимозаменяемости); статистический анализ классификаций; математические вопросы теории менеджмента и др.

Случайные множества. Будем рассматривать случайные подмножества некоторого множества . Если состоит из конечного числа элементов, то считаем, что случайное подмножество - это случайный элемент со значениями в 2^Q - множестве всех подмножеств множества , состоящем из $2^{card(Q)}$ элементов. Чтобы удовлетворить математиков, считаем, что все подмножества измеримы. Тогда распределение случайного подмножества $S=S(\omega)$ множества - это

$P_S(A)=P(S=A)=P(\{\omega:S(\omega)=A\}),A\subseteq Q.$

( 6)

В формуле (6) предполагается, что $S:\Omega\rightarrow 2^Q$ где $(\Omega,F,P)$ - вероятностное пространство (здесь $\Omega$ - пространство элементарных событий, $F - \sigma$ - алгебра случайных событий, - вероятностная мера на ), на котором определен случайный элемент $S(\omega)$ . Через распределение PS(A) выражаются вероятности различных событий, связанных с . Так, чтобы найти вероятность накрытия фиксированного элемента случайным множеством , достаточно вычислить

$P(q\in S)=P(\{\omega:q\in S(\omega)\})= \sum_{A:q\in A, A\subseteq 2^Q} P(S=A),$

где суммирование идет по всем подмножествам

множества

, содержащим

. Пусть $Q={q_1, q_2, ..., q_k}$ . Рассмотрим случайные величины, определяемые по случайному множеству

следующим образом

$\chi_i(\omega)= \left\{ \begin{aligned} &1,q_i\in S(\omega), \\ &0,q_i\notin S(\omega). \end{aligned} \right.$

Определение 3. Случайное множество называется случайным множеством с независимыми элементами, если случайные величины $\chi_i(\omega),i=1,2,...,k$ , независимы (в совокупности).

Последовательность случайных величин $\chi_1,\chi_2,...,\chi_k$ - бернуллиевский вектор с $X_i=\chi_i$ и $p_i=P(q_i\in S(\omega)),i=1,2,...,k$ . Из сказанного выше следует, что распределение случайного множества с независимыми элементами задается формулой

$P(S=A)=\Pi_{q_i\in A} p_i \Pi_{q_i\in Q\backslash A}(1-p_i),$

т.е. такие распределения образуют k = card(Q)

- мерное параметрическое семейство, входящее в $(2^{card(Q)}-1)$ - мерное семейство всех распределений случайных подмножеств множества

.

При исследовании случайных подмножеств произвольного множества будем рассматривать их как случайные величины со значениями в некотором пространстве подмножеств множества , например, в пространстве замкнутых подмножеств 2^Q множества .

Представляющими интерес лишь для математиков способами введения измеримой структуры в 2^Q интересоваться не будем. Отсутствие специального интереса к проблеме измеримости связано с тем, что при вероятностно-статистическом моделировании и обработке на ЭВМ все случайные подмножества рассматриваются как конечные (т.е. подмножества конечного множества).

Случайные множества находят разнообразные применения в многообразных проблемах эконометрики и математической экономики, в том числе в задачах управлении запасами и ресурсами (см. об этом главу 5 в монографии [ ]), в задачах менеджмента и, в частности, маркетинга, в экспертных оценках, например, при анализе мнений голосующих или опрашиваемых, каждый из которых отмечает несколько пунктов из списка и т.д. Кроме того, случайные множества применяются в гранулометрии, при изучении пористых сред и объектов сложной природы в таких областях, как металлография, петрография, биология, в частности, математическая морфология, в изучении структуры веществ и материалов, в исследовании процессов распространения, в том числе просачивания, распространения пожаров, экологических загрязнений, при районировании, в изучении областей поражения, например, поражения металла коррозией и сердечной мышцы при инфаркте миокарда, и т.д., и т.п. Можно вспомнить о компьютерной томографии, о наглядном представлении сложной информации на экране компьютера, об изучении распространения рекламной информации, о картах Кохонена (популярный метод представления информации при применении нейросетей) и т.д.

Ранговые методы. В "Различные виды статистических данных" установлено, что любой адекватный алгоритм в порядковой шкале является функцией от некоторой матрицы . Пусть никакие два из результатов наблюдений x_1,x_2,...,x_n не совпадают, а r_1,r_2,...,r_n - их ранги. Тогда элементы матрицы и ранги результатов наблюдений связаны взаимно однозначным соответствием:

$r_i=1+\sum_{1\le j\le n}(1-c_{ij}),$

а $c_{ij}$ через ранги выражаются так: c_i = 1

, если

, и $c_{ij} = 0$ в противном случае.

Сказанное означает, что при обработке данных, измеренных в порядковой шкале, могут применяться только ранговые статистические методы. Отметим, что часто используемое в непараметрической статистике преобразование Y=F(X) (здесь F(x) - непрерывная функция распределения случайной величины , причем предполагается произвольной) фактически означает переход к порядковой шкале, поскольку статистические выводы при этом инвариантны относительно допустимых преобразований в порядковой шкале.

Разумеется, ранговые статистические методы могут применяться не только при обработке данных, измеренных в порядковой шкале. Так, для проверки независимости двух количественных признаков в случае, когда нет уверенности в нормальности соответствующего двумерного распределения, целесообразно пользоваться коэффициентами ранговой корреляции Кендалла или Спирмена.

В настоящее время с помощью непараметрических и прежде всего ранговых методов можно решать все те задачи эконометрики и прикладной статистики, что и с помощью параметрических методов, в частности, основанных на предположении нормальности. Однако параметрические методы вошли в массовое сознание исследователей и инженеров и мешают широкому внедрению более обоснованной и прогрессивной ранговой статистики. Так, при проверке однородности двух выборок вместо критерия Стьюдента целесообразно использовать ранговые методы (см. "Статистический анализ числовых величин" ), но пока это делается редко.

Объекты общей природы. Вероятностная модель объекта нечисловой природы в общем случае - случайный элемент со значениями в пространстве произвольного вида, а модель выборки таких объектов - совокупность независимых одинаково распределенных случайных элементов. Именно такая модель была использована для обработки наблюдений, каждое из которых - нечеткое множество [ [ 1.16 ] ].

Из-за имеющего разнобоя в терминологии приведем математические определения из справочника по теории вероятностей академика РАН Ю.В Прохорова и проф. Ю.А. Розанова [ [ 2.16 ] ].

Пусть $(\mathbf{X},\mathbf{B})$ - некоторое измеримое пространство; F,B - измеримая функция $\xi=\xi(\omega)$ на пространстве элементарных событий $(\Omega,F,\mathbf{P})$ (где - вероятностная мера на $\sigma$ - алгебре - измеримых подмножеств $\Omega$ , называемых событиями) со значениями в $(\mathbf{X},\mathbf{B})$ называется случайной величиной (чаще этот математический объект называют случайным элементом, оставляя термин "случайная величина" за частным случаем, когда $\mathbf{Х}$ - числовая прямая) в фазовом пространстве $(\mathbf{X},\mathbf{B})$ . Распределением вероятностей этой случайной величины $\xi$ называется функция $P_{\xi}=P_{\xi}(B)$ на $\sigma$ -алгебре $\mathbf{B}$ фазового пространства, определенная как

$P_{\xi}=P\{\xi\in B\}\quad (B\in \mathbf{B})$

( 7)

(распределение вероятностей $P_{\xi}$ представляет собой вероятностную меру в фазовом пространстве $(\mathbf{X},\mathbf{B})$ ) [ [ 2.16 ] , с.132].

Пусть $\xi_1,\xi_2,...,\xi_n$ - случайные величины на пространстве случайных событий $(\Omega,F,\mathbf{P})$ в соответствующих фазовых пространствах $\mathbf{X}_k,\mathbf{B}_k$ . Совместным распределением вероятностей этих величин называется функция $P_{\xi_1,\xi_2,...,\xi_n}= P_{\xi_1,\xi_2,...,\xi_n}(B_1,B_2,...,B_n)$ , определенная на множествах $B_1\in\mathbf{B}_1, B_2\in\mathbf{B}_2, ..., B_n\in\mathbf{B}_n$ как

$P_{\xi_1,\xi_2,...,\xi_n}(B_1,B_2,...,B_n)= P_{\xi_1,\xi_2,...,\xi_n}(\xi_1\in B_1, \xi_2\in B_2,...,\xi_n\in B_n).$

( 8)

Распределение вероятностей $P_{\xi_1,\xi_2,...,\xi_n}$ как функция на полукольце множеств вида $B_1\times B_2\times ...\times B_n, B_1\in\mathbf{B}_1, B_2\in\mathbf{B}_2,...,B_n\in\mathbf{B}_n$ , в произведении пространств $\mathbf{X}_1,\mathbf{X}_2,...,\mathbf{X}_n$ представляет собой аналог классической функции распределения. Случайные величины $\xi_1,\xi_2,...,\xi_n$ называются независимыми, если при любых B_1, B_2,...,B_n (см. [ [ 2.16 ] , с.133])

$P_{\xi_1,\xi_2,...,\xi_n}(B_1,B_2,...,B_n)= P_{\xi_1}(B_1)P_{\xi_2}(B_2)...P_{\xi_n}(B_n).$

( 9)

Предположим, что совместное распределение вероятностей $P_{\xi,\eta}(A,B)$ случайных величин $\xi$ и $\eta$ абсолютно непрерывно относительно некоторой меры на произведении пространств $\mathbf{X}\times\mathbf{Y}$ , являющейся произведением мер Q_X и Q_Y , т.е.:

$P_{\xi,\eta}(A,B)=\int\limits_{A\times B}p(x,y)Q(dx,dy)$

( 10)

для любых $A\in\mathbf{A}$ и $B\in\mathbf{B}$ , где p(x,y)

- соответствующая плотность распределения вероятностей [ [ 2.16 ] , с.145].

В формуле (10) предполагается, что $\xi-\xi(\omega)$ и $\eta=\eta{\omega}$ - случайные величины на одном и том же пространстве элементарных событий $\Omega$ со значениями в фазовых пространствах $(\mathbf{X},\mathbf{A})$ и $(\mathbf{Y},\mathbf{B})$ . Существование плотности p(x,y) вытекает из абсолютной непрерывности $P_{\xi,\eta}(A,B)$ относительно в соответствии с теоремой Радона-Никодима.

Условное распределение вероятностей $P_{\xi}(A|\eta),A\in\mathbf{A}$ может быть выбрано одинаковым для всех $\omega\in\Omega$ при которых случайная величина $\eta=\eta(\omega)$ сохраняет одно и то же значение: $\eta(\omega)=y$ . При почти каждом $y\in\mathbf{Y}$ (относительно распределения $P_{\eta}$ в фазовом пространстве $(\mathbf{Y},\mathbf{B})$ ) условное распределение вероятностей $P_{\xi}(A|y)=P_{\omega,\xi}(A)$ , где $\omega\in\{\eta=y\}$ и $A\in\mathbf{A}$ будет абсолютно непрерывно относительно меры Q_X :

$Q_X(A)-\int_{A\times X}Q(dx,dy).$

Причем соответствующая плотность условного распределения вероятностей будет иметь вид (см. [ [ 2.16 ] , с.145-146]):

$p_{\xi}(x|y)=\frac{p_{\xi}(dx|y)}{Q_X(dx)}=\frac{p(x,y)}{\int\limits_X p(x,y)Q_X(dx)}.$

( 11)

При построении вероятностных моделей реальных явлений важны вероятностные пространства из конечного числа элементарных событий. Для них перечисленные выше общие понятия становятся более прозрачными, в частности, снимаются вопросы измеримости (все подмножества конечного множества обычно считаются измеримыми). Вместо плотностей и условных плотностей рассматриваются вероятности и условные вероятности. Отметим, что вероятности можно рассматривать как плотности относительно меры, приписывающей каждому элементу пространства элементарных событий вес 1, т.е. считающей меры

(мера каждого множества равна числу его элементов). В целом ясно, что определения основных понятий теории вероятностей в общей ситуации практически не отличаются от таковых в элементарных курсах, во всяком случае с идейной точки зрения.

За последние десятилетия в прикладной статистике сформировалась новая область - статистика нечисловых данных, она же - статистика объектов нечисловой природы. К настоящему времени она развита не менее, чем ранее выделенные статистика случайных величин, многомерный статистический анализ, статистика временных рядов и случайных процессов. Краткая сводка основных постановок и результатов прикладной статистики в пространствах нечисловой природы приведены ниже в данном параграфе и в "Статистика нечисловых данных" .

Теория, построенная для результатов наблюдений, лежащих в пространствах общей природы, является центральным стержнем в статистике нечисловой природы. В ее рамках удалось разработать и изучить методы оценивания параметров и характеристик, проверки гипотез (в частности, с помощью статистик интегрального типа), параметрической и непараметрической регрессии (восстановления зависимостей), непараметрического оценивания плотности, дискриминантного и кластерного анализов и т.д.

Вероятностно-статистические методы, развитые для результатов наблюдений из пространств произвольного вида, позволяют единообразно проводить анализ данных из любого конкретного пространства. Так, в монографии [ [ 1.15 ] ] они применены к конечным случайным множествам, в работе [ [ 1.16 ] ] - к нечетким множествам. С их помощью установлено поведение обобщенного мнения экспертной комиссии (медианы Кемени) при увеличении числа экспертов, когда ответы экспертов лежат в том или ином пространстве бинарных отношений. Методы классификации могут быть основаны на непараметрических оценках плотности распределения вероятностей в пространстве общей природы. Такие методы были применены для медицинской диагностики в пространстве разнотипных данных, когда часть координат вектора измерена по количественным шкалам, а часть - по качественным, и т.д.

Дальше >>

Прикладная статистика

Описание данных

Вопросы и ответы

Студенты

Авторизоваться

Прикладная статистика

Описание данных

Вопросы и ответы

Студенты