ВКР |
Статистика нечисловых данных
Непараметрические оценки плотности в пространствах произвольной природы
Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства и использовании разнообразных сумм элементов выборок и функций от них, как в классической статистике, а на применении показателей различия, мер близости, метрик, поэтому существенно отличается от классического. В статистике нечисловых данных выделяют общую теорию и статистику в конкретных пространствах нечисловой природы (например, статистику ранжировок). В общей теории есть два основных сюжета. Один связан со средними величинами и асимптотическим поведением решений экстремальных статистических задач, второй - с непараметрическими оценками плотности. Первый сюжет только что рассмотрен, второму посвящена заключительная часть настоящей лекции.
Понятие плотности в пространстве произвольной природы требует специального обсуждения. В пространстве Х должна быть выделена некоторая специальная мера , относительно которой будут рассматриваться плотности, соответствующие другим мерам, например, мере , задающей распределение вероятностей некоторого случайного элемента . В таком случае для любого случайного события . Плотность , соответствующая мере - это такая функция, что для любого случайного события . Для случайных величин и векторов мера - это объем множества , в математических терминах - мера Лебега. Для дискретных случайных величин и элементов со значениями в конечном множестве в качестве меры естественно использовать считающую меру, которая событию ставит в соответствие число его элементов. Используют также нормированную случайную меру, когда число точек в множестве делят на число точек во всем пространстве . В случае считающей меры значение плотности в точке совпадает с вероятностью попасть в точку , т.е. . Таким образом, с рассматриваемой точки зрения стирается грань между понятиями "плотность вероятности" и "вероятность (попасть в точку)".
Как могут быть использованы непараметрические оценки плотности распределения вероятностей в пространствах нечисловой природы? Например, для решения задач классификации (диагностики, распознавания образов - см. "Многомерный статистический анализ" ). Зная плотности распределения классов, можно решать основные задачи диагностики - как задачи выделения кластеров, так и задачи отнесения вновь поступающего объекта к одному из диагностических классов. В задачах кластер-анализа можно находить моды плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа -средних или динамических сгущений. В задачах собственно диагностики (дискриминации, распознавания образов с учителем) можно принимать решения о диагностике объектов на основе отношения плотностей, соответствующих классам. При неизвестных плотностях представляется естественным использовать их состоятельные оценки.
Методы оценивания плотности вероятности в пространствах общего вида предложены и первоначально изучены в работе [31]. В частности, в задачах диагностики объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа Парзена - Розенблатта (этот вид оценок и его название впервые были введены в статье [31]). Они имеют вид:
где - так называемая ядерная функция, - выборка, по которой оценивается плотность, - показатель различия (метрика, расстояние, мера близости) между элементом выборки и точкой , в которой оценивается плотность, последовательность показателей размытости такова, что и при , а - нормирующий множитель, обеспечивающий выполнение условия нормировки (интеграл по всему пространству от непараметрической оценки плотности по мере должен равняться 1). Ранее американские исследователи Парзен и Розенблатт использовали подобные статистики в случае .
Введенные описанным образом ядерные оценки плотности - частный случай так называемых линейных оценок, также впервые предложенных в работе [31]. В теоретическом плане они выделяются тем, что удается получать результаты такого же типа, что в классическом одномерном случае, но, разумеется, с помощью совсем иного математического аппарата.
Свойства непараметрических ядерных оценок плотности. Рассмотрим выборку со значениями в некотором пространстве произвольного вида. В этом пространстве предполагаются заданными показатель различия и мера . Одна из основных идей рассматриваемого подхода состоит в том, чтобы согласовать их между собой. А именно, на их основе построим новый показатель различия так называемый "естественный", в терминах которого проще формулируются свойства непараметрической оценки плотности. Для этого рассмотрим шары радиуса и их меры . Предположим, что как функция t при фиксированном непрерывна и строго возрастает. Введем функцию . Это - монотонное преобразование показателя различия или расстояния, а потому - также показатель различия (даже если - метрика, для неравенство треугольника может быть не выполнено). Другими словами, , как и , можно рассматривать как показатель различия (меру близости) между и .
Для вновь введенного показателя различия введем соответствующие шары . Поскольку обратная функция определена однозначно, то , где . Следовательно, справедлива цепочка равенств .
Переход от к напоминает классическое преобразование, использованное Н.В. Смирновым при изучении непараметрических критериев согласия и однородности, а именно, преобразование , переводящее случайную величину с непрерывной функцией распределения в случайную величину , равномерно распределенную на отрезке . Оба рассматриваемых преобразования существенно упрощают дальнейшие рассмотрения. Преобразование зависит от точки , что не влияет на дальнейшие рассуждения, поскольку ограничиваемся изучением сходимости в отдельно взятой точке.
Функцию , для которой мера шара радиуса равна , называем в соответствии с работой [31] "естественным показателем различия" или "естественной метрикой". В случае конечномерного пространства и евклидовой метрики имеем , где - объем шара единичного радиуса в .
Поскольку можно записать, что
где
то переход от одного показателя различия к другому, т.е. от к соответствует переходу от одной ядерной функции к другой, т.е. от к . Выгода от такого перехода заключается в том, что утверждения о поведении непараметрических оценок плотности приобретают более простую формулировку.
Теорема 5. Пусть - естественная метрика, плотность непрерывна в точке и ограничена на всем пространстве причем , ядерная функция удовлетворяет простым условиям регулярности
Тогда оценка является состоятельной, т.е. по вероятности при и, кроме того,
Теорема 5 доказывается методами, развитыми в работе [31]. Однако остается открытым вопрос о скорости сходимости ядерных оценок, в частности, о поведении величины - среднего квадрата ошибки, и об оптимальном выборе показателей размытости Для того, чтобы продвинуться в решении этого вопроса, введем новые понятия. Для случайного элемента со значениями в рассмотрим т.н. круговое распределение и круговую плотность .
Теорема 6. Пусть ядерная функция непрерывна и финитна, т.е. существует число такое, что при . Пусть круговая плотность является достаточно гладкой, т.е. допускает разложение
при некотором , причем остаточный член равномерно ограничен на . Пусть
Тогда
Доказательство теоремы 6 проводится с помощью разработанной в статистике объектов нечисловой природы математической техники, образцы которой представлены, в частности, в работе [31]. Если коэффициенты при основных членах в правой части последней формулы не равны 0, то величина достигает минимума, равного при Эти выводы совпадают с классическими результатами, полученными ранее рядом авторов для весьма частного случая прямой (см., например, монографию [32, с.316]). Заметим, что для уменьшения смещения оценки приходится применять знакопеременные ядра .
Непараметрические оценки плотности в конечных пространствах. В случае конечных пространств естественных метрик не существует. Однако можно получить аналоги теорем 5 и 6, переходя к пределу не только по объему выборки , но и по новому параметру дискретности .
Рассмотрим некоторую последовательность - конечных пространств. Пусть в заданы показатели различия Будем использовать нормированные считающие меры ставящие в соответствие каждому подмножеству долю элементов всего пространства входящих в . Как и ранее, рассмотрим как функцию объем шара радиуса , т.е. Введем аналог естественного показателя различия Наконец, рассмотрим аналоги преобразования Смирнова Функции , в отличие от ситуации предыдущего раздела, уже не совпадают тождественно с , они кусочно-постоянны и имеют скачки в некоторых точках , причем в этих точках
Теорема 7. Пусть точки скачков равномерно сближаются, т.е. при (другими словами, при ). Тогда существует последовательность параметров дискретности mn такая, что при предельном переходе справедливы заключения теорем 5 и 6.
Пример 1. Пространство всех подмножеств конечного множества из m элементов допускает (см. монографию [3]) аксиоматическое введение метрики где - символ симметрической разности множеств. Рассмотрим непараметрическую ядерную оценку плотности типа Парзена - Розенблатта
где - функция нормального стандартного распределения. Можно показать, что эта оценка удовлетворяет условиям теоремы 7 с
Пример 2. Рассмотрим пространство функций определенных на конечном множестве , со значениями в конечном множестве . Это пространство можно интерпретировать как пространство нечетких множеств (см. о нечетких множествах, напаример, монографии [3], [10]), а именно, - носитель нечеткого множества, а - множество значений функции принадлежности. Очевидно, число элементов пространства равно Будем использовать расстояние Непараметрическая оценка плотности имеет вид:
Если , то при выполнены условия теоремы 7, а потому справедливы теоремы 5 и 6.
Пример 3. Рассматривая пространства ранжировок объектов, в качестве расстояния между ранжировками и примем минимальное число инверсий, необходимых для перехода от к . Тогда не стремится к 0 при , условия теоремы 7 не выполнены.
Пример 4. В прикладных работах наиболее распространенный пример объектов нечисловой природы - вектор разнотипных данных: реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и порядковых). Для пространств разнотипных признаков, т.е. декартовых произведений непрерывных и дискретных пространств, возможны различные постановки. Пусть, например, число градаций качественных признаков остается постоянным. Тогда непараметрическая оценка плотности сводится к произведению частоты попадания в точку в пространстве качественных признаков на классическую оценку Парзена-Розенблатта в пространстве количественных переменных. В общем случае расстояние можно, например, рассматривать как сумму трех расстояний. А именно, евклидова расстояния между количественными факторами, расстояния между номинальными признаками , если , и , если ) и расстояния между порядковыми переменными (если x и y - номера градаций, то ). Наличие количественных факторов приводит к непрерывности и строгому возрастанию функции , а потому для непараметрических оценок плотности в пространствах разнотипных признаков верны теоремы 5 - 6.
Статистика объектов нечисловой природы как часть эконометрики продолжает бурно развиваться. Увеличивается количество ее практически полезных применений при анализе конкретных экономических данных - в маркетинговых исследованиях, контроллинге, при управлении предприятием и др.