Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3994 / 952 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 5:

Описание данных

5.6. Непараметрические оценки плотности

Эмпирическая функция распределения - это состоятельная непараметрическая оценка функции распределения числовой случайной величины. А как оценить плотность? Если продифференцировать эмпирическую функцию распределения, то получим бесконечности в точках, соответствующих элементам выборки, и 0 во всех остальных. Ясно, что это не оценка плотности.

Как же действовать? Каждому элементу выборки соответствует в эмпирическом распределении вероятность 1/n, где n - объем выборки. Целесообразно эту вероятность не помещать в одну точку, а "размазать" вокруг нее, построив "холмик". Если "холмики" налегают друг на друга, то получаем положительную плотность на всей прямой. Чтобы получить состоятельную оценку плотности, необходимо выбирать ширину "холмика" в зависимости от объема выборки. При этом число "холмиков", покрывающих фиксированную точку, должно безгранично расти. Но одновременно доле таких "холмиков" следует убывать, поскольку покрывающие "холмики" должны быть порождены лишь ближайшими членами вариационного ряда.

Реализация описанной идеи привела к различным вариантам непараметрических оценок плотности. Основополагающей является работа Н.В.Смирнова 1951 г. [ [ 5.26 ] ]. Вначале рассматривались непараметрические оценки плотности распределения числовых случайных величин и конечномерных случайных векторов. В 1980-х годах удалось сконструировать такие оценки в пространствах произвольной природы [ [ 5.18 ] ], а затем и для конкретных видов нечисловых данных [ [ 5.21 ] ].

Сначала рассмотрим непараметрические оценки плотности в наиболее общей ситуации. В статистике нечисловых данных выделяют общую теорию и статистику в конкретных пространствах нечисловой природы (например, статистику ранжировок). В общей теории есть два основных сюжета. Один связан со средними величинами и асимптотическим поведением решений экстремальных статистических задач, второй - с непараметрическими оценками плотности. Первый сюжет только что рассмотрен, второму посвящена заключительная часть настоящей лекции.

Понятие плотности в пространстве произвольной природы X требует специального обсуждения. В пространстве X должна быть выделена некоторая специальная мера \mu, относительно которой будут рассматриваться плотности, соответствующие другим мерам, например, мере \nu, задающей распределение вероятностей некоторого случайного элемента \xi. В таком случае \nu(A)=Р(\xi\in A) для любого случайного события A. Плотность f(x), соответствующая мере \nu - это такая функция, что

\nu(A)=\int\limits_A f(x)s\mu

для любого случайного события A. Для случайных величин и векторов мера \mu - это объем множества A, в математических терминах - мера Лебега. Для дискретных случайных величин и элементов со значениями в конечном множестве X в качестве меры \mu естественно использовать считающую меру, которая событию A ставит в соответствие число его элементов. Используют также нормированную случайную меру, когда число точек в множестве A делят на число точек во всем пространстве X. В случае считающей меры значение плотности в точке x совпадает с вероятностью попасть в точку x, т.е. f(x)=P(\xi=x). Таким образом, с рассматриваемой точки зрения стирается грань между понятиями "плотность вероятности" и "вероятность (попасть в точку)".

Как могут быть использованы непараметрические оценки плотности распределения вероятностей в пространствах нечисловой природы? Например, для решения задач классификации (диагностики, распознавания образов - см. "Многомерный статистический анализ" ). Зная плотности распределения классов, можно решать основные задачи диагностики - как задачи выделения кластеров, так и задачи отнесения вновь поступающего объекта к одному из диагностических классов. В задачах кластер-анализа можно находить моды плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа k -средних или динамических сгущений. В задачах собственно диагностики (дискриминации, распознавания образов с учителем) можно принимать решения о диагностике объектов на основе отношения плотностей, соответствующих классам. При неизвестных плотностях представляется естественным использовать их состоятельные оценки.

Методы оценивания плотности вероятности в пространствах общего вида предложены и первоначально изучены в работе [ [ 5.18 ] ]. В частности, в задачах диагностики объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа Парзена-Розенблатта (этот вид оценок и его название впервые были введены в статье [ [ 5.18 ] ] ). Они имеют вид:

f_n(x)=\frac{1}{\eta_n(h_n,x)}\sum_{1\le i\le n}K(\frac{d(x_i,x)}{h_n}),
где K:R_+^1\rightarrow R^1 - так называемая ядерная функция, x_1, x_2, ..., x_n\in X - выборка, по которой оценивается плотность, d(x_i,x) - показатель различия (метрика, расстояние, мера близости) между элементом выборки x_i и точкой x, в которой оценивается плотность, последовательность h_n показателей размытости такова, что h_n\rightarrow 0 и nh_n\rightarrow\infty при n\rightarrow\infty, а \eta_n(h_n,x) - нормирующий множитель, обеспечивающий выполнение условия нормировки (интеграл по всему пространству от непараметрической оценки плотности f_n(x) по мере \mu должен равняться 1). Ранее американские исследователи Парзен и Розенблатт использовали подобные статистики в случае X=R^1 с d(x_i,x)=|x_i-x|.

Введенные описанным образом ядерные оценки плотности - частный случай так называемых линейных оценок, также впервые предложенных в работе [ [ 5.18 ] ]. В теоретическом плане они выделяются тем, что удается получать результаты такого же типа, что в классическом одномерном случае, но, разумеется, с помощью совсем иного математического аппарата.

Свойства непараметрических ядерных оценок плотности. Рассмотрим выборку со значениями в некотором пространстве произвольного вида. В этом пространстве предполагаются заданными показатель различия d и мера \mu. Одна из основных идей рассматриваемого подхода состоит в том, чтобы согласовать их между собой. А именно, на их основе построим новый показатель различия d_1, так называемый "естественный", в терминах которого проще формулируются свойства непараметрической оценки плотности. Для этого рассмотрим шары L_t(x)=\{y\in X:d(y,x)\le t\} радиуса t\ge 0 и их меры F_x(t)=\mu(L_t(x)). Предположим, что F_x(t) как функция t при фиксированном x непрерывна и строго возрастает. Введем функцию d_1(x,y)=F_x(d(x,y)). Это - монотонное преобразование показателя различия или расстояния, а потому d_1(x,y) - также показатель различия (даже если d - метрика, для d_1 неравенство треугольника может быть не выполнено). Другими словами, d_1(x,y), как и d(x,y), можно рассматривать как показатель различия (меру близости) между x и y.

Для вновь введенного показателя различия d_1(x,y) введем соответствующие шары L_{1t}= \{y\in X:d_1(y,x)\le t\}. Поскольку обратная функция F^{-1}_x(t) определена однозначно, то

L_{1t}(x)=\{y\in X:d_1(y,x)\le F_x^{-1}(t)\}=L_T(x),
где T = F^{-1}_x(t). Следовательно, справедлива цепочка равенств F^1_х(t) = \mu(L_{1t}(x)) = \mu(L_T(x)) = F_x(F^{-1}_x(t))=t (для всех тех значений параметра t, для которых определены все участвующие в записи математические объекты).

Переход от d к d_1 напоминает классическое преобразование, использованное Н.В. Смирновым при изучении непараметрических критериев согласия и однородности, а именно, преобразование \eta=F(\xi), переводящее случайную величину \xi с непрерывной функцией распределения F(x) в случайную величину \eta, равномерно распределенную на отрезке [0,1]. Оба рассматриваемых преобразования существенно упрощают дальнейшие рассмотрения. Преобразование d_1= F_x(d) зависит от точки x, что не влияет на дальнейшие рассуждения, поскольку ограничиваемся изучением сходимости в отдельно взятой точке.

Функцию d_1(x,y), для которой мера шара радиуса t равна t, называем в соответствии с работой [ [ 5.18 ] ] "естественным показателем различия" или "естественной метрикой". В случае конечномерного пространства R^k и евклидовой метрики d имеем d_1(x,y) = c_k d^k(x,y), где c_k - объем шара единичного радиуса в R^k.

Поскольку можно записать, что

K
\left(
\frac{d(x_i,x)}{h_n}
\right)=
K_1
\left(
\frac{d_1(x_i,x)}{h_n}
\right),
\text{ где } K_1(u)=K
\left(
\frac{F_x^{-1}(uh_n)}{h_n}
\right),
то переход от одного показателя различия к другому, т.е. от d к d_1, соответствует переходу от одной ядерной функции к другой, т.е. от K к K_1. Выгода от такого перехода заключается в том, что утверждения о поведении непараметрических оценок плотности приобретают более простую формулировку.

Теорема 5. Пусть d - естественная метрика, плотность f непрерывна в точке x и ограничена на всем пространстве X, причем f(x)>0, ядерная функция K(u) удовлетворяет простым условиям регулярности

\int\limits_0^1 K(u)du=1, \int\limits_0^{infty} (|K(u)|+K^2(u))du<\infty.

Тогда \eta_n(h_n,x)=nh_n, оценка f_n(x) является состоятельной, т.е. f_n(x)\rightarrow f(x) по вероятности при n\rightarrow\infty и, кроме того,

\lim_{n\rightarrow\infty}(nh_nDf_n(x))=f(x)\int\limits_0^{+\infty}K^2(u)du.

Теорема 5 доказывается методами, развитыми в работе [ [ 5.18 ] ]. Однако остается открытым вопрос о скорости сходимости ядерных оценок, в частности, о поведении величины \alpha_n= M(f_n(x)-f(x))^2 - среднего квадрата ошибки, и об оптимальном выборе показателей размытости h_n. Для того, чтобы продвинуться в решении этого вопроса, введем новые понятия. Для случайного элемента X(\omega) со значениями в X рассмотрим так называемое круговое распределение G(x,t) = P\{d(X(\omega),x)\le t\} и круговую плотность g(x,t)= G'_t(x,t).

Теорема 6. Пусть ядерная функция K(u) непрерывна и финитна, т.е. существует число E такое, что K(u)=0 при u>E. Пусть круговая плотность является достаточно гладкой, т.е. допускает разложение

g(x,t)=f(x)+tg'_t(x,0)+\frac{t^2}{2}g''_{tt}(x,0)+\frac{t^3}{3!}g'''_{ttt}(x,0)+...+\frac{t^k}{k!}g_{t^{(k)}}^{(k)}(x,0)+o(h_n^k)
при некотором k, причем остаточный член равномерно ограничен на [0,hE].

Пусть

\int\limits_0^E u^i K(u)du=0,i=1,2,...,k-1.

Тогда

\begin{gathered}
\alpha_n=[Mf_n(x)-f(x)]^2+Df_n(x)= \\
=h_n^{2k}\left(\int\limits_0^E u^k K(u)du\right)^2
(g_{t^{(k)}}^k(x,0))^2+\frac{f(x)}{nh_n}\int\limits_0^E K^2(u)du+\\
+o\left(h_n^{2k}+\frac{1}{nh_n}\right).
\end{gathered}

Доказательство теоремы 6 проводится с помощью разработанной в статистике объектов нечисловой природы математической техники, образцы которой представлены, в частности, в работе [ [ 5.18 ] ]. Если коэффициенты при основных членах в правой части последней формулы не равны 0, то величина \alpha n достигает минимума, равного \alpha_n=O\left(n^{-1+\frac{1}{2k+1}}\right) при h_n=n^{-\frac{1}{2k+1}}. Эти выводы совпадают с классическими результатами, полученными ранее рядом авторов для весьма частного случая прямой X = R^1 (см., например, монографию [ [ 4.7 ] , с.316]). Заметим, что для уменьшения смещения оценки приходится применять знакопеременные ядра K(u).

Непараметрические оценки плотности в конечных пространствах [ [ 5.21 ] ]. В случае пространств из конечного числа элементов естественных метрик не существует. Однако можно получить аналоги теорем 5 и 6, переходя к пределу не только по объему выборки n, но и по новому параметру дискретности m.

Рассмотрим некоторую последовательность Xm, m=1,2,..., конечных пространств. Пусть в X_m заданы показатели различия d_m. Будем использовать нормированные считающие меры ставящие в соответствие каждому подмножеству A долю элементов всего пространства X_m, входящих в A. Как и ранее, рассмотрим как функцию t объем шара радиуса t, т.е.

F_{mx}(t)=\mu_m(\{y\in X_m:d_m(x,y)\le t\}).

Введем аналог естественного показателя различия d_{1m}(x,y)=F_{mx}(d_m(x,y)). Наконец, рассмотрим аналоги преобразования Смирнова F_{mx}^1(t)=\mu_m(\{y\in X_m:d_{1m}(x,y)\le t\}). Функции F_{mx}^1(t), в отличие от ранее рассмотренной ситуации, уже не совпадают тождественно с t, они кусочно-постоянны и имеют скачки в некоторых точках t_i, i=1,2,..., причем в этих точках F_{mx}^1(t_i)=t_i.

Теорема 7. Пусть точки скачков равномерно сближаются, т.е. \max(t_i-t_{i-1}) \rightarrow 0 при m\rightarrow\infty (другими словами, \sup|F_{mx}^1(t)-t| \rightarrow 0 при m\rightarrow\infty ). Тогда существует последовательность параметров дискретности m_n такая, что при предельном переходе n\rightarrow\infty, m\rightarrow\infty, m\ge m_n справедливы заключения теорем 5 и 6.

Пример 1. Пространство X_m=2^{\sigma(m)} всех подмножеств конечного множества \sigma{m} из m элементов допускает (см. "Различные виды статистических данных" и монографию [ [ 1.15 ] ]) аксиоматическое введение метрики d(A,B)=card(A\Delta B)/2^m где \Delta - символ симметрической разности множеств. Рассмотрим непараметрическую ядерную оценку плотности типа Парзена-Розенблатта

f_{nm}(A)=\frac{1}{nh_n}\sum_{i=1}^n K
\left(
\frac{1}{h_n}\Phi
\left(
\frac{2card(A\Delta X_i)-m}{\sqrt{m}}
\right)
\right),
где \Phi(\cdot) - функция нормального стандартного распределения. Можно показать, что эта оценка удовлетворяет условиям теоремы 7 с m_n=(\ln n)^6.

Пример 2. Рассмотрим пространство функций f:Y_r\rightarrow Z_q определенных на конечном множестве Y_r=\{1/r,2/r,...,(r-1)/r,\;1\}, со значениями в конечном множестве Z_q=\{0,1/q,2/q,...,(q-1)/q,1\}. Это пространство можно интерпретировать как пространство нечетких множеств (см. "Различные виды статистических данных" ), а именно, Y_r - носитель нечеткого множества, а Z_q - множество значений функции принадлежности. Очевидно, число элементов пространства X_m равно (q+1)^r. Будем использовать расстояние d(f,g)=\sup|f(y)-g(y)|. Непараметрическая оценка плотности имеет вид:

f_{nm}(x)=\frac{1}{nh_n}\sum_{i=1}^n K
\left(
\frac{[2\sup_y|x(y)-x_i(y)|+1/q]^r}{h_n(1+1/q)^r}
\right).

Если r=n^\alpha, q=n^{\beta}, то при \beta>\alpha выполнены условия теоремы 7, а потому справедливы теоремы 5 и 6.

Пример 3. Рассматривая пространства ранжировок m объектов, в качестве расстояния d(A,B) между ранжировками A и B примем минимальное число инверсий, необходимых для перехода от A к B. Тогда \max(t_i - t_{i-1}) не стремится к 0 при m\rightarrow\infty, условия теоремы 7 не выполнены.

Пример 4. В прикладных работах наиболее распространенный пример объектов нечисловой природы - вектор разнотипных данных: реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и порядковых). Для пространств разнотипных признаков, т.е. декартовых произведений непрерывных и дискретных пространств, возможны различные постановки. Пусть, например, число градаций качественных признаков остается постоянным. Тогда непараметрическая оценка плотности сводится к произведению двух величин - частоты попадания в точку в пространстве качественных признаков и классической оценки типа Парзена-Розенблатта в пространстве количественных переменных. В общем случае расстояние d(x,y) можно, например, рассматривать как сумму трех расстояний. А именно, евклидова расстояния d_1 между количественными факторами, расстояния d_2 между номинальными признаками (d_2(x,y) = 0, если x = y, и d_2(x,y) = 1, если x\ne y ) и расстояния d_3 между порядковыми переменными (если x и y - номера градаций, то d3(x,y)=|x-y|). Наличие количественных факторов приводит к непрерывности и строгому возрастанию функции F_{mx}(t), а потому для непараметрических оценок плотности в пространствах разнотипных признаков верны теоремы 5 - 6.

Программная реализация описания числовых данных с помощью непараметрических оценок плотности включена в ряд программных продуктов по прикладной статистике, в частности, в пакет программ анализа данных ППАНД [ [ 5.19 ] ].

Контрольные вопросы и задачи

  1. Часто ли результаты измерений имеют нормальное распределение?
  2. По выборке фактических данных о величине годового дохода (в тыс. долл.), взятых на конец 1970-х гг. (США), постройте вариационный ряд, гистограмму (группируя данные по 6-ти равным интервалам); определите выборочные среднее арифметическое, медиану и моду:
    \begin{gathered}
2,0; 13,4; 2,2; 6,7; 11,1; 10,0; 2,6; 12,9; 10,5; 9,2; 11,1; \\
14,0; 26,0; 17,5; 7,2; 18,7; 9,9; 7,6; 11,7;11,3; 6,5.
\end{gathered}
  3. Дано распределение по градациям (табл.1) почасовой заработной платы 303 рабочих, занятых в промышленности ( f_i - число рабочих, имеющих почасовую заработную плату x_i ). Постройте эмпирическую функцию распределения, найдите выборочные медиану, моду и среднее арифметическое.
    Таблица 1. Распределение рабочих по ставкам почасовой оплаты
    x_i 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4
    f_i 10 25 41 74 58 34 17 14 11 3
  4. Какие средние величины целесообразно использовать при расчете средней заработной платы (или среднего дохода)?
  5. Постройте пример, показывающий некорректность использования среднего арифметического f(X_1, X_2) = (X_1 + X_2)/2 в порядковой шкале, используя допустимое преобразование g(x) = x^2 (при положительных усредняемых величинах x ).
  6. Постройте пример, показывающий некорректность использования среднего геометрического в порядковой шкале. Другими словами, приведите пример чисел x_1, x_2, y_1, y_2 и строго возрастающего преобразования f:R^1\rightarrow R^1 таких, что
    (x_1x_2)^{1/2}<(y_1y_2)^{1/2},[f(x_1)f(x_2)]^{1/2}>[f(y_1)f(y_2)]^{1/2}.
  7. Приведите пример чисел x_1, x_2, y_1, y_2 и строго возрастающего преобразования f: R^1 \rightarrow R^1 таких, что
    \begin{gathered}
{[}(x_1)^2+(x_2)^2]^{1/2}<[(y_1)^2+(y_2)^2]^{1/2}, \\
[(f(x_1))^2+(f(x_2))^2]^{1/2}>[(y(y_1))^2+(f(y_2))^2]^{1/2}.
\end{gathered}
  8. Какая математическая модель используется для описания случайного множества?
  9. Как соотносятся эмпирические и теоретические средние для числовых данных и в пространствах произвольной природы?
  10. Почему описание числовых данных с помощью непараметрических оценок плотности предпочтительнее их описания с помощью гистограмм?

Темы докладов, рефератов, исследовательских работ

  1. Проведите описание данных, приведенных в табл.5.1 (п.5.2). Постройте таблицы (типа табл.5.2 и 5.3 там же), рассчитайте выборочные характеристики.
  2. Показатели разброса, связи, показатели различия (в том числе метрики) в порядковой шкале.
  3. Ранговые методы математической статистики как инвариантные методы анализа порядковых данных.
  4. Показатели разброса, связи, показатели различия (в том числе метрики) в шкале интервалов.
  5. Показатели разброса, связи, показатели различия (в том числе метрики) в шкале отношений.
  6. Теорема В.В. Подиновского: любое изменение коэффициентов весомости единичных показателей качества продукции приводит к изменению упорядочения изделий по средневзвешенному показателю.
  7. Вероятностные модели бинарных отношений.
  8. Вероятностные модели парных сравнений.
  9. Средние и законы больших чисел в пространстве упорядочений.
  10. Непараметрические оценки плотности в непрерывных и дискретных пространствах.
Анастасия Маркова
Анастасия Маркова

Здравствуйте!

4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1.

Сегодня вижу, что я вне курса! Почему так произошло?