НОУ ИНТУИТ | Эконометрика. Лекция 8: Статистика нечисловых данных

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 16.12.2009 | Уровень: для всех | Доступ: свободно

|

Вам нравится? Нравится 55 студентам

| Поделиться |

Поддержать программу

Непараметрические оценки плотности в пространствах произвольной природы

Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства и использовании разнообразных сумм элементов выборок и функций от них, как в классической статистике, а на применении показателей различия, мер близости, метрик, поэтому существенно отличается от классического. В статистике нечисловых данных выделяют общую теорию и статистику в конкретных пространствах нечисловой природы (например, статистику ранжировок). В общей теории есть два основных сюжета. Один связан со средними величинами и асимптотическим поведением решений экстремальных статистических задач, второй - с непараметрическими оценками плотности. Первый сюжет только что рассмотрен, второму посвящена заключительная часть настоящей лекции.

Понятие плотности в пространстве произвольной природы требует специального обсуждения. В пространстве Х должна быть выделена некоторая специальная мера $\mu$ , относительно которой будут рассматриваться плотности, соответствующие другим мерам, например, мере , задающей распределение вероятностей некоторого случайного элемента $\xi$ . В таком случае $\xi(А) = Р(\xi \inА)$ для любого случайного события . Плотность f(x) , соответствующая мере - это такая функция, что $v(A)=\int_A f(x)d \mu$ для любого случайного события . Для случайных величин и векторов мера $\mu$ - это объем множества , в математических терминах - мера Лебега. Для дискретных случайных величин и элементов со значениями в конечном множестве в качестве меры $\mu$ естественно использовать считающую меру, которая событию ставит в соответствие число его элементов. Используют также нормированную случайную меру, когда число точек в множестве делят на число точек во всем пространстве . В случае считающей меры значение плотности в точке совпадает с вероятностью попасть в точку , т.е. $f(x) = Р(\xi= х)$ . Таким образом, с рассматриваемой точки зрения стирается грань между понятиями "плотность вероятности" и "вероятность (попасть в точку)".

Как могут быть использованы непараметрические оценки плотности распределения вероятностей в пространствах нечисловой природы? Например, для решения задач классификации (диагностики, распознавания образов - см. "Многомерный статистический анализ" ). Зная плотности распределения классов, можно решать основные задачи диагностики - как задачи выделения кластеров, так и задачи отнесения вновь поступающего объекта к одному из диагностических классов. В задачах кластер-анализа можно находить моды плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа -средних или динамических сгущений. В задачах собственно диагностики (дискриминации, распознавания образов с учителем) можно принимать решения о диагностике объектов на основе отношения плотностей, соответствующих классам. При неизвестных плотностях представляется естественным использовать их состоятельные оценки.

Методы оценивания плотности вероятности в пространствах общего вида предложены и первоначально изучены в работе [31]. В частности, в задачах диагностики объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа Парзена - Розенблатта (этот вид оценок и его название впервые были введены в статье [31]). Они имеют вид:

$f_n(x)=\frac{1}{\eta_n(h_n,x)}\sum_{1 \le i \le n} K(\frac{d(x_i,x)}{h_n})$

где $К: R_+^1 \to R^1$ - так называемая ядерная функция, $x_1, x_2, \dots, x_n \in X$ - выборка, по которой оценивается плотность, d(x_i , x) - показатель различия (метрика, расстояние, мера близости) между элементом выборки x_i и точкой , в которой оценивается плотность, последовательность h_n показателей размытости такова, что $h_n \to 0$ и $nh_n \to \infty$ при $n \to \infty$ , а $\eta_n(h_n,x)$ - нормирующий множитель, обеспечивающий выполнение условия нормировки (интеграл по всему пространству от непараметрической оценки плотности f_n(x) по мере $\mu$ должен равняться 1). Ранее американские исследователи Парзен и Розенблатт использовали подобные статистики в случае X=R^1 с d(x_i , x) = |x_i - x| .

Введенные описанным образом ядерные оценки плотности - частный случай так называемых линейных оценок, также впервые предложенных в работе [31]. В теоретическом плане они выделяются тем, что удается получать результаты такого же типа, что в классическом одномерном случае, но, разумеется, с помощью совсем иного математического аппарата.

Свойства непараметрических ядерных оценок плотности. Рассмотрим выборку со значениями в некотором пространстве произвольного вида. В этом пространстве предполагаются заданными показатель различия и мера $\mu$ . Одна из основных идей рассматриваемого подхода состоит в том, чтобы согласовать их между собой. А именно, на их основе построим новый показатель различия d_1 , так называемый "естественный", в терминах которого проще формулируются свойства непараметрической оценки плотности. Для этого рассмотрим шары $L_t(x)=\{y \inX:d(y,x) \le t\}$ радиуса $t\ge 0$ и их меры $F_x(t) = \mu(L_t(x))$ . Предположим, что F_x(t) как функция t при фиксированном непрерывна и строго возрастает. Введем функцию d_1(x,y)= F_x(d(x,y)) . Это - монотонное преобразование показателя различия или расстояния, а потому - также показатель различия (даже если - метрика, для d_1 неравенство треугольника может быть не выполнено). Другими словами, d_1(x,y) , как и d(x,y) , можно рассматривать как показатель различия (меру близости) между и .

Для вновь введенного показателя различия d_1(x,y) введем соответствующие шары $L_{1t}(x)=\{y \in X:d_1(x,y) \le t\}$ . Поскольку обратная функция $F^{ -1}x(t)$ определена однозначно, то $L_{1t}(x)=\{y \in X:d_1(x,y) \le F_x^{-1}(t)\}=L_T(x)$ , где $T = F^{ -1}x(t)$ . Следовательно, справедлива цепочка равенств $F_{1x}(t) = \mu(L_1t(x)) = \mu(L_T(x)) = F_x(F^{ -1}x(t)) = t$ .

Переход от к d_1 напоминает классическое преобразование, использованное Н.В. Смирновым при изучении непараметрических критериев согласия и однородности, а именно, преобразование $\eta=F(\xi)$ , переводящее случайную величину $\xi$ с непрерывной функцией распределения F(x) в случайную величину $\eta$ , равномерно распределенную на отрезке [0,1] . Оба рассматриваемых преобразования существенно упрощают дальнейшие рассмотрения. Преобразование d_1= F_x(d) зависит от точки , что не влияет на дальнейшие рассуждения, поскольку ограничиваемся изучением сходимости в отдельно взятой точке.

Функцию d_1(x,y) , для которой мера шара радиуса равна , называем в соответствии с работой [31] "естественным показателем различия" или "естественной метрикой". В случае конечномерного пространства R^k и евклидовой метрики имеем d_1(x,y) = c_k d^ k (x,y) , где c_k - объем шара единичного радиуса в R^k .

Поскольку можно записать, что

$K\left( \frac{d(x_i,x)}{h_n}\right)=K_1\left(\frac{d_1(x_i, x)}{h_n}\right)$

где

$K_1(u)=K\left(\frac{F_x^{-1}(uh_n)}{h_n}\right)$

то переход от одного показателя различия к другому, т.е. от к d_1 соответствует переходу от одной ядерной функции к другой, т.е. от к K_1 . Выгода от такого перехода заключается в том, что утверждения о поведении непараметрических оценок плотности приобретают более простую формулировку.

Теорема 5. Пусть - естественная метрика, плотность непрерывна в точке и ограничена на всем пространстве причем , ядерная функция удовлетворяет простым условиям регулярности

$\int_0^1K(u)du=1, \int_0^\infty(|K(u)|+K^2(u))du \lt; \infty$

Тогда $\eta_n(h_n ,x) = nh_n ,$ оценка является состоятельной, т.е. $f_n(x)\to f(x)$ по вероятности при $n \to \infty$ и, кроме того,

$\lim_{n\to \infty}(nh_nDf_n(x))=f(x)\int^{+\infty}_0 K^2(u)du$

Теорема 5 доказывается методами, развитыми в работе [31]. Однако остается открытым вопрос о скорости сходимости ядерных оценок, в частности, о поведении величины $\alpha_n = M(f_n(x)-f(x))^2$ - среднего квадрата ошибки, и об оптимальном выборе показателей размытости h_n . Для того, чтобы продвинуться в решении этого вопроса, введем новые понятия. Для случайного элемента $X(\omega)$ со значениями в рассмотрим т.н. круговое распределение $G(x,t) = P\{d(\omega), x)\le t\}$ и круговую плотность g(x,t)= G'_t(x,t) .

Теорема 6. Пусть ядерная функция непрерывна и финитна, т.е. существует число такое, что при $u\gt;E$ . Пусть круговая плотность является достаточно гладкой, т.е. допускает разложение

$g(x,t)=f(x)+tg'_t(x,0)+\frac{t^2}{2}g''_{tt}(x,0)+\frac{t^3}{3!}g'''_{ttt}(x,0)+\dots+\frac{t^k}{k!}g_{t^(1)}^{(k)}(x,0)+o(h_n^k)$

при некотором , причем остаточный член равномерно ограничен на . Пусть

$\int_0^Eu^iK(u)du=0, i=1,2,\dots, k-1$

Тогда

$\alpha_n=[Mf_n(x)-f(x)]^2=h_n^{2k}\left(\int_0^E u^kK(u)du\right)^2(g_{t^(k)}^k(x,0))^2+\frac{f(x)}{nh_n}\int_0^EK^2(u)du+o\left(h_n^{2k}+\frac{1}{nh_n}\right)$

Доказательство теоремы 6 проводится с помощью разработанной в статистике объектов нечисловой природы математической техники, образцы которой представлены, в частности, в работе [31]. Если коэффициенты при основных членах в правой части последней формулы не равны 0, то величина $\alpha_n$ достигает минимума, равного $\alpha_n=O \left(n^{-1+\frac{1}{2k+1}}\right)$ при $h_n=n^{-\frac{1}{2k+1}}$ Эти выводы совпадают с классическими результатами, полученными ранее рядом авторов для весьма частного случая прямой X = R^1 (см., например, монографию [32, с.316]). Заметим, что для уменьшения смещения оценки приходится применять знакопеременные ядра K(u) .

Непараметрические оценки плотности в конечных пространствах. В случае конечных пространств естественных метрик не существует. Однако можно получить аналоги теорем 5 и 6, переходя к пределу не только по объему выборки , но и по новому параметру дискретности .

Рассмотрим некоторую последовательность $X_m , m = 1,2,\dots$ - конечных пространств. Пусть в X_m заданы показатели различия d_m . Будем использовать нормированные считающие меры $\mu_m$ ставящие в соответствие каждому подмножеству долю элементов всего пространства X_m , входящих в . Как и ранее, рассмотрим как функцию объем шара радиуса , т.е. $F_{mx}(t)=\mu_m(\{y \in X_m:d_m(x,y) \le t\})$ Введем аналог естественного показателя различия $d_{1m}(x,y)=F_{mx}(d_m(x,y))$ Наконец, рассмотрим аналоги преобразования Смирнова $F_{mx}^1(t)=\mu_m(\{y \in X_m:d_{1m}(x,y} \ge t\})$ Функции $F_{mx}^1(t)$ , в отличие от ситуации предыдущего раздела, уже не совпадают тождественно с , они кусочно-постоянны и имеют скачки в некоторых точках $t_i , i =1,2,\dots$ , причем в этих точках $F_{mx}^1(t_i)=t_i$

Теорема 7. Пусть точки скачков равномерно сближаются, т.е. $\max(t_i-t_{i-1} \to 0$ при $m \to \infty$ (другими словами, $sup|F_{mx}^1(t)-t| \to 0$ при $m \to \infty$ ). Тогда существует последовательность параметров дискретности mn такая, что при предельном переходе $n \to \infty, m \to \infty, m \ge m_n$ справедливы заключения теорем 5 и 6.

Пример 1. Пространство $X_m=2^{\sigma(m)}$ всех подмножеств конечного множества $\sigma(m)$ из m элементов допускает (см. монографию [3]) аксиоматическое введение метрики $d(A,B)=card(A \Delta B)/2^m$ где $\Delta$ - символ симметрической разности множеств. Рассмотрим непараметрическую ядерную оценку плотности типа Парзена - Розенблатта

$f_{mn}(A)=\frac{1}{nh_n}\sum_{i=1}^n K \left(\frac{1}{h_n} Ф \left(\frac{2card(A \Delta X_i)-m}{\sqrt m} \right) \right)$

где Ф(.) - функция нормального стандартного распределения. Можно показать, что эта оценка удовлетворяет условиям теоремы 7 с $m_n=(\ln n)^6$

Пример 2. Рассмотрим пространство функций $f:Y_r \to Z_q$ определенных на конечном множестве $Y_r=\{1/r, 2/r, \dots, (r-1)/r, 1\}$ , со значениями в конечном множестве $Z_q=\{0, 1/q, 2/q, \dots, (q-1)/q, 1\}$ . Это пространство можно интерпретировать как пространство нечетких множеств (см. о нечетких множествах, напаример, монографии [3], [10]), а именно, Y_r - носитель нечеткого множества, а Z_q - множество значений функции принадлежности. Очевидно, число элементов пространства X_m равно (q+1)^r. Будем использовать расстояние d(f,g)=sup|f(y)-g(y)| Непараметрическая оценка плотности имеет вид:

$f_{nm}=\frac{1}{nh_n}\sum_{i=1}^nK \left(\frac{[2sup_y|x(y)-x_i(y)|+\frac 1q]^r}{h_n(1+\frac 1q)^r} \right)$

Если $r=n^{\alpha}, q=n^{\beta}$ , то при $\beta > \alpha$ выполнены условия теоремы 7, а потому справедливы теоремы 5 и 6.

Пример 3. Рассматривая пространства ранжировок объектов, в качестве расстояния d(A,B) между ранжировками и примем минимальное число инверсий, необходимых для перехода от к . Тогда $max(t_i -t_{i-1})$ не стремится к 0 при $m \to \infty$ , условия теоремы 7 не выполнены.

Пример 4. В прикладных работах наиболее распространенный пример объектов нечисловой природы - вектор разнотипных данных: реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и порядковых). Для пространств разнотипных признаков, т.е. декартовых произведений непрерывных и дискретных пространств, возможны различные постановки. Пусть, например, число градаций качественных признаков остается постоянным. Тогда непараметрическая оценка плотности сводится к произведению частоты попадания в точку в пространстве качественных признаков на классическую оценку Парзена-Розенблатта в пространстве количественных переменных. В общем случае расстояние d(x,y) можно, например, рассматривать как сумму трех расстояний. А именно, евклидова расстояния d_1 между количественными факторами, расстояния d_2 между номинальными признаками (d_2(x,y) = 0 , если x = y , и d_2(x,y) = 1 , если $x \ne y$ ) и расстояния d_3 между порядковыми переменными (если x и y - номера градаций, то d_3(x,y) = |x - y| ). Наличие количественных факторов приводит к непрерывности и строгому возрастанию функции $F_{mx}(t)$ , а потому для непараметрических оценок плотности в пространствах разнотипных признаков верны теоремы 5 - 6.

Статистика объектов нечисловой природы как часть эконометрики продолжает бурно развиваться. Увеличивается количество ее практически полезных применений при анализе конкретных экономических данных - в маркетинговых исследованиях, контроллинге, при управлении предприятием и др.

Дальше >>

Авторизоваться

Эконометрика

Статистика нечисловых данных

Непараметрические оценки плотности в пространствах произвольной природы

Вопросы и ответы