НОУ ИНТУИТ | Эконометрика. Лекция 8: Статистика нечисловых данных

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Твой путь к знаниям!

Опубликован: 16.12.2009 | Уровень: для всех | Доступ: свободно

Случайные множества. Будем рассматривать случайные подмножества некоторого множества . Если состоит из конечного числа элементов, то считаем, что случайное подмножество - это случайный элемент со значениями в 2^Q - множестве всех подмножеств множества , состоящем из $2^{card(Q)}$ элементов. Чтобы удовлетворить математиков, считаем, что все подмножества измеримы. Тогда распределение случайного подмножества $S=S(\omega)$ множества - это

$P_S(A)=P(S=A)=(\{\omega:S(\omega)=A\}), A \subseteq Q$

( 6)

В формуле (6) предполагается, что $S: \Omega \to 2^Q$ где $(\Omega, F, P)$ - вероятностное пространство (здесь $\Omega$ - пространство элементарных событий, $F-\omega$ -алгебра случайных событий, -вероятностная мера на ), на котором определен случайный элемент $S(\omega)$ .Через распределение P_S(A) выражаются вероятности различных событий, связанных с . Так ,чтобы найти вероятность накрытия фиксированного элемента случайным множеством , достаточно вычислить

$P(q \in S)=P(\{\omega : q \in S(\omega)\})= \sum_{A:q \in A, A \subseteq 2^Q}P(S=A),$

где суммирование идет по всем подмножествам множества , содержащим . Пусть $Q=\{q_1, q_2, \dots, q_k\}$ . Рассмотрим случайные величины, определяемые по случайному множеству S следующим образом

$\chi_i(\omega)=\begin {cases} 1, q_i \in S(\omega),\\ 0, q_i \notin S(\omega). \end{cases}$

Определение 3. Случайное множество называется случайным множеством с независимыми элементами, если случайные величины $\chi_i(\omega), i=1,2,\dots, k$ независимы (в совокупности).

Последовательность случайных величин $\chi_1, \chi_2, \dots, \chi_k$ -бернуллиевский вектор с $X_i= \chi_i$ и $p_i=P(q_i \in S(\omega)), i=1,2, \dots, k$ Из последней формулы подпункта "Дихотомические данные" следует, что распределение случайного множества с независимыми элементами задается формулой

$P(S=A)= \prod_{q_i \in A}p_i \prod_{q_i \in Q /A}(1-p_i)$

т.е. такие распределения образуют k = card(Q) - мерное параметрическое семейство, входящее в $(2^{card(Q)} - 1)$ - одномерное семейство всех распределений случайных подмножеств множества .

При исследовании случайных подмножеств произвольного множества будем рассматривать их как случайные величины со значениями в некотором пространстве подмножеств множества , например, в пространстве замкнутых подмножеств 2^Q множества . Представляющими интерес лишь для математиков способами введения измеримой структуры в 2^Q интересоваться не будем. Отсутствие специального интереса к проблеме измеримости связано с тем, что при эконометрическом моделировании и обработке на ЭВМ все случайные подмножества рассматриваются как конечные (т.е. подмножества конечного множества).

Случайные множества находят разнообразные применения в многообразных проблемах эконометрики и математической экономики, в том числе в задачах управлении запасами и ресурсами (см. об этом главу 5 в монографии [3]), в задачах менеджмента и маркетинга, в экспертных оценках, в частности, при анализе мнений голосующих или опрашиваемых, каждый из которых отмечает несколько пунктов из списка и т.д. Кроме того, случайные множества применяются в гранулометрии, при изучении пористых сред и объектов сложной природы в таких областях, как металлография, петрография, биология, в частности, математическая морфология, в изучении структуры веществ и материалов, в исследовании процессов распространения, в частности, просачивания, распространения пожаров, экологических загрязнений, при районировании, в том числе в изучении областей поражения, в частности, поражения металла коррозией и сердечной мышцы при инфаркте миокарда, и т.д., и т.п. Можно вспомнить о компьютерной томографии, о наглядном представлении сложной информации на экране компьютера, об изучении распространения рекламной информации, о картах Кохонена (популярный метод представления информации при применении нейросетей) и т.д.

Ранговые методы. Ранее установлено, что любой адекватный алгоритм в порядковой шкале является функцией от некоторой матрицы . Пусть никакие два из результатов наблюдений $x_1, x_2, \dots, x_n$ не совпадают, а $r_1, r_2, \dots, r_n$ - их ранги. Тогда элементы матрицы C и ранги результатов наблюдений связаны взаимно однозначным соответствием:

$r_i=1+ \sum_{1 \le j \le n}(1-c_{ij})$

а $c_{ij}$ через ранги выражаются так: $c_{ij}=1$ , если r_i <r_j , и $c_{ij}=0$ в противном случае.

Сказанное означает, что при обработке данных, измеренных в порядковой шкале, могут применяться только ранговые статистические методы. Отметим, что часто используемое в непараметрической статистике преобразование Y=F(x) (здесь F(x) - непрерывная функция распределения случайной величины , причем предполагается произвольной) фактически означает переход к порядковой шкале, поскольку статистические выводы при этом инвариантны относительно допустимых преобразований в порядковой шкале.

Разумеется, ранговые статистические методы могут применяться не только при обработке данных, измеренных в порядковой шкале. Так, для проверки независимости двух количественных признаков в случае, когда нет уверенности в нормальности соответствующего двумерного распределения, целесообразно пользоваться коэффициентами ранговой корреляции Кендалла или Спирмена.

Как было подробно обосновано в "Статистический анализ числовых величин (непараметрическая статистика)" и "Многомерный статистический анализ" , в настоящее время с помощью непараметрических и прежде всего ранговых методов можно решать все те задачи эконометрики и прикладной статистики, что и с помощью параметрических методов, в частности, основанных на предположении нормальности. Однако параметрические методы вошли в массовое сознание исследователей и инженеров и мешают широкому внедрению более обоснованной и прогрессивной ранговой статистики. Так, при проверке однородности двух выборок вместо критерия Стъюдента целесообразно использовать ранговые методы, но пока это делается редко.

Объекты общей природы. Вероятностная модель объекта нечисловой природы в общем случае- случайный элемент со значениями в пространстве произвольного вида, а модель выборки таких объектов - совокупность независимых одинаково распределенных случайных элементов. Именно такая модель была использована для обработки наблюдений, каждое из которых - нечеткое множество [10].

Из-за имеющего разнобоя в терминологии приведем математические определения из справочника по теории вероятностей академика РАН Ю.В Прохорова и проф. Ю.А. Розанова [25].

Пусть (X,B) -некоторое измеримое пространство; (F,B) -измеримая функция $\xi= \xi (\omega)$ на пространстве элементарных событий $(\Omega, F, P)$ (где - вероятностная мера на $\omega$ -алгебре - измеримых подмножеств $\Omega$ , называемых событиями) со значениями в (X,B) называется случайной величиной (чаще этот математический объект называют случайным элементом, оставляя термин "случайная величина" за частным случаем, когда - числовая прямая) в фазовом пространстве (X,B) . Распределением вероятностей этой случайной величины $\Xi$ называется функция $P_{\xi}=P_{\xi}(B)$ на $\omega$ -алгебре фазового пространства, определенная как

$P_{\xi}=P\{\xi \in B \}, (B \in B)$

( 7)

(распределение вероятностей $P_{\xi}$ представляет собой вероятностную меру в фазовом пространстве (X,B) ) [25, с. 132].

Пусть $\xi_1, \xi_2, \dots, \xi_n$ - случайные величины на пространстве случайных событий $(\Omega, F, P)$ в соответствующих фазовых пространствах (X_k, B_k) . Совместным распределением вероятностей этих величин называется функция $P_{\xi_1, \xi_2, \dots, \xi_n}= P_{\xi_1, \xi_2, \dots, \xi_n}(B_1, B_2, \dots, B_n)$ , определенная на множествах $B_1 \in B_1, B_2 \in B_2, \dots, B_n \in B_n$ как

$P_{\xi_1, \xi_2, \dots, \xi_n}(B_1, B_2, \dots, B_n) = P_{\xi_1, \xi_2, \dots, \xi_n}(\xi_1 \in B, \xi_2 \in B_2, \dots, \xi_n \in B_n)$

( 8)

Распределение вероятностей $P_{\xi_1, \xi_2, \dots, \xi_n}$ как функция на полукольце множеств вида $B_1 \times B_2 \times \dots \times B_n, B_1 \in B_1, B_2 \in B_2, \dots, B_n \in B_n$ в произведении пространств $X_1, X_2, \dots, X_n$ представляет собой функцию распределения. Случайные величины $\xi_1, \xi_2, \dots, \xi_n$ называются независимыми, если при любых $B_1, B_2, \dots, B_n$ (см. [25, с.133])

$P_{\xi_1, \xi_2, \dots, \xi_n}(B_1, B_2, \dots, B_n)=P_{\xi 1}(B_1)P_{\xi 2}(B_2) \dots P_{\xi n}(B_n)$

( 9)

Предположим, что совместное распределение вероятностей $P_{\xi, \eta}(A, B)$ случайных величин $\xi$ и $\eta$ абсолютно непрерывно относительно некоторой меры на произведении пространств $X \times Y$ , являющейся произведением мер Q_X и Q_Y , т.е.:

$P_{\xi, \eta}(A,B)=\int_{A*B}p(x,y)Q(dx, dy)$

( 10)

для любых $A \in A$ и $B \in B$ , где p(x,y) - соответствующая плотность распределения вероятностей [25, с.145].

В формуле (10) предполагается, что $\xi=\xi(\omega)$ и $\eta=\eta(\omega)$ - случайные величины на одном и том же пространстве элементарных событий $\Omega$ со значениями в фазовых пространствах (X,A) и (Y,B) . Существование плотности p(x,y) вытекает из абсолютной непрерывности $P_{\xi, \eta}(A,B)$ относительно в соответствии с теоремой Радона - Никодима.

Условное распределение вероятностей $P_{\xi}(A|\eta) A \in A$ может быть выбрано одинаковым для всех $\omega \in \Omega$ при которых случайная величина $\eta=\eta(\omega)$ сохраняет одно и то же значение: $\eta(\omega)=y$ При почти каждом $y \in Y$ (относительно распределения $P_{\eta}$ в фазовом пространстве (Y,B) ) условное распределение вероятностей $P_{\eta}(A|y)=P_{\omega, \xi}(A)$ где $\omega \in \{\eta=y\}$ и $a\inA$ будет абсолютно непрерывно относительно меры Q_x :

$Q_X(A)=\int_{A*X}(dx, dy)$

Причем соответствующая плотность условного распределения вероятностей будет иметь вид:

$p_{\xi}(x|y)=\frac{p_{\xi}(dx|y)}{Q_X(dx)}=\frac{p(x,y)}{\int_X p(x,y)Q_X(dx)}$

( 11)

При построении вероятностных моделей реальных явлений важны вероятностные пространства из конечного числа элементарных событий. Для них перечисленные выше общие понятия становятся более прозрачными, в частности, снимаются вопросы измеримости (все подмножества конечного множества обычно считаются измеримыми). Вместо плотностей и условных плотностей рассматриваются вероятности и условные вероятности. Отметим, что вероятности можно рассматривать как плотности относительно меры, приписывающей каждому элементу пространства элементарных событий вес 1, т.е. считающей меры Q(A)=Card(A) (мера каждого множества равна числу его элементов). В целом ясно, что определения основных понятий теории вероятностей в общем случае практически не отличаются от таковых в элементарных курсах, во всяком случае с идейной точки зрения.

За последние двадцать лет в эконометрике и прикладной математической статистике сформировалась новая область - статистика нечисловых данных, она же - статистика объектов нечисловой природы. К настоящему времени она развита не менее, чем ранее выделенные статистика случайных величин, многомерный статистический анализ, статистика временных рядов и случайных процессов. Краткая сводка основных постановок и результатов математической статистики в пространствах нечисловой природы даны ниже в настоящей лекции. Теория, построенная для результатов наблюдений, лежащих в пространствах общей природы, является центральным стержнем в статистике нечисловой природы. В ее рамках удалось разработать и изучить методы оценивания параметров и характеристик, проверки гипотез (в частности, с помощью статистик интегрального типа), параметрической и непараметрической регрессии (восстановления зависимостей), непараметрического оценивания плотности, дискриминантного и кластерного анализов и т.д.

Вероятностно-статистические методы, развитые для результатов наблюдений из пространств произвольного вида, позволяют единообразно проводить анализ данных из любого конкретного пространства. Так, в монографии [3] они применены к конечным случайным множествам, в работе [10] - к нечетким множествам. С их помощью установлено поведение обобщенного мнения экспертной комиссии (медианы Кемени) при увеличении числа экспертов, когда ответы экспертов лежат в том или ином пространстве бинарных отношений. В пункте методы распознавания образов, основанные на непараметрических оценках плотности распределения вероятностей в пространстве общей природы, применены для разработки алгоритма диагностики в пространстве разнотипных данных (часть координат вектора измерена по количественным шкалам, часть - по качественным - см. "Основы теории измерений" ).

Дальше >>

Авторизоваться

Эконометрика

Статистика нечисловых данных

Вопросы и ответы