Здравствуйте! 4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1. Сегодня вижу, что я вне курса! Почему так произошло? |
Статистика интервальных данных
Метрологические, методические, статистические и вычислительные погрешности. Целесообразно выделить ряд видов погрешностей статистических данных. Погрешности, вызванные неточностью измерения исходных данных, называем метрологическими. Их максимальное значение можно оценить с помощью нотны. Впрочем, выше на примере оценивания параметров гамма-распределения показано, что переход от максимального отклонения к реально имеющемуся в вероятностно-статистической модели не меняет выводы (с точностью до умножения предельных значений погрешностей или на константы). Как правило, метрологические погрешности не убывают с ростом объема выборки.
Методические погрешности вызваны неадекватностью вероятностно-статистической модели, отклонением реальности от ее предпосылок. Неадекватность обычно не исчезает при росте объема выборки. Методические погрешности целесообразно изучать с помощью "общей схемы устойчивости" [ [ 1.15 ] , [ 12.38 ] ], обобщающей популярную в теории робастных статистических процедур модель засорения большими выбросами. В настоящей главе методические погрешности не рассматриваются.
Статистическая погрешность - это та погрешность, которая традиционно рассматривается в математической статистике. Ее характеристики - дисперсия оценки, дополнение до 1 мощности критерия при фиксированной альтернативе и т.д. Как правило, статистическая погрешность стремится к 0 при росте объема выборки.
Вычислительная погрешность определяется алгоритмами расчета, в частности, правилами округления. На уровне чистой математики справедливо тождество правых частей формул (22) и (24), задающих выборочную дисперсию , а на уровне вычислительной математики формула (22) дает при определенных условиях существенно больше верных значащих цифр, чем вторая [ [ 12.40 ] , с.51-52].
Выше на примере задачи оценивания параметров гамма-распределения рассмотрено совместное действие метрологических и вычислительных погрешностей, причем погрешности вычислений оценивались по классическим правилам для ручного счета [ [ 12.4 ] ]. Оказалось, что при таком подходе оценки метода моментов имеют преимущество перед оценками максимального правдоподобия в обширной области изменения параметров. Однако, если учитывать только метрологические погрешности, как это делалось выше в примерах 1-5, то с помощью аналогичных выкладок можно показать, что оценки этих двух типов имеют (при достаточно больших ) одинаковую погрешность.
Вычислительную погрешность здесь подробно не рассматриваем. Ряд интересных результатов о ее роли в статистике получили Н.Н. Ляшенко и М.С. Никулин [ [ 12.20 ] ].
Проведем сравнение методов оценивания параметров в более общей постановке.
В теории оценивания параметров классической математической статистики установлено, что метод максимального правдоподобия, как правило, лучше (в смысле асимптотической дисперсии и асимптотического среднего квадрата ошибки), чем метод моментов. Однако в интервальной статистике это, вообще говоря, не так, что продемонстрировано выше на примере оценивания параметров гамма-распределения. Сравним эти два метода оценивания в случае интервальных данных в общей постановке. Поскольку метод максимального правдоподобия - частный случай метода минимального контраста, начнем с разбора этого несколько более общего метода.
Оценки минимального контраста. Пусть - пространство, в котором лежат независимые одинаково распределенные случайные элементы .. Будем оценивать элемент пространства параметров с помощью функции контраста . Оценкой минимального контраста называется
Если множество состоит из более чем одного элемента, то оценкой минимального контраста называют также любой элемент .
Оценками минимального контраста являются, в частности, многие робастные статистики [ [ 1.15 ] , [ 12.45 ] ]. Эти оценки широко используются в статистике объектов нечисловой природы [ [ 1.15 ] , [ 12.38 ] ], поскольку при переходят в эмпирические средние, а если - пространство бинарных отношений - в медиану Кемени.
Пусть в имеется мера (заданная на той же -алгебре, что участвует в определении случайных элементов ), и - плотность распределения по мере . Если
то оценка минимального контраста переходит в оценку максимального правдоподобия.Асимптотическое поведение оценок минимального контраста в случае пространств и общего вида хорошо изучено [ [ 12.25 ] ], в частности, известны условия состоятельности оценок. Здесь ограничимся случаем , но при этом введя погрешности измерений . Примем также, что .
В рассматриваемой математической модели предполагается, что статистику известны лишь искаженные значения . Поэтому вместо он вычисляет
Будем изучать величину в предположении, что погрешности измерений малы. Цель этого изучения - продемонстрировать идеи статистики интервальных данных при достаточно простых предположениях. Поэтому естественно следовать условиям и ходу рассуждений, которые обычно принимаются при изучении оценок максимального правдоподобия [ [ 2.10 ] , п.33.3].
Пусть - истинное значение параметра, функция f(x;\theta) трижды дифференцируема по , причем
при всех . Тогда( 27) |
Используя обозначения векторов , введем суммы
Аналогичным образом введем функции , в которых вместо стоят .
Поскольку в соответствии с теоремой Ферма оценка минимального контраста удовлетворяет уравнению
( 28) |
( 29) |
( 30) |
Решения уравнения (28) будем также называть оценками минимального контраста. Хотя уравнение (28) - лишь необходимое условие минимума, такое словоупотребление не будет вызывать трудностей.
Теорема 1. Пусть для любого выполнено соотношение (27). Пусть для случайной величины с распределением, соответствующим значению параметра , существуют математические ожидания
( 31) |
Тогда существуют оценки минимального контраста такие, что при (в смысле сходимости по вероятности).
Доказательство. Возьмем и . В силу закона больших чисел (теорема Хинчина) существует такое, что для любого справедливы неравенства
Тогда с вероятностью не менее одновременно выполняются соотношения
( 32) |
При рассмотрим многочлен второй степени
(см. формулу (29)). С вероятностью не менее выполнены соотношенияЕсли , то знак в точках и определяется знаком линейного члена , следовательно, знаки и различны, а потому существует такое, что , что и требовалось доказать.
Теорема 2. Пусть выполнены условия теоремы 1 и, кроме того, для случайной величины , распределение которой соответствует значению параметра , существует математическое ожидание
Тогда оценка минимального контраста имеет асимптотически нормальное распределение:
( 33) |
для любого , где - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1.
Доказательство. Из центральной предельной теоремы вытекает, что числитель в правой части формулы (30) асимптотически нормален с математическим ожиданием 0 и дисперсией . Первое слагаемое в знаменателе формулы (30) в силу условий (31) и закона больших чисел сходится по вероятности к , а второе слагаемое по тем же основаниям и с учетом теоремы 1 - к 0. Итак, знаменатель сходится по вероятности к . Доказательство теоремы 2 завершает ссылка на теорему о наследовании сходимости (4.3 и [ [ 1.15 ] , 2.4]).
Нотна оценки минимального контраста. Аналогично (30) нетрудно получить, что
( 34) |
Следовательно, есть разность правых частей формул (30) и (34). Найдем максимально возможное значение (т.е. нотну) величины при ограничениях (1) на абсолютные погрешности результатов измерений.
Покажем, что при для некоторого нотна имеет вид
( 35) |
Поскольку , то из (33) и (35) следует, что
( 36) |
Можно сказать, что наличие погрешностей приводит к появлению систематической ошибки (смещения) у оценки метода максимального правдоподобия, и нотна является максимально возможным значением этой систематической ошибки.
В правой части (36) первое слагаемое - квадрат асимптотической нотны, второе соответствует статистической ошибке. Приравнивая их, получаем рациональный объем выборки
Остается доказать соотношение (35) и вычислить . Укажем сначала условия, при которых (по вероятности) при одновременно с .
Теорема 3. Пусть существуют константа и функции такие, что при и выполнены неравенства (ср. формулу (27))
( 37) |
Доказательство проведем по схеме доказательства теоремы 1. Из неравенств (37) вытекает, что
( 38) |
Возьмем и . В силу закона больших чисел (теорема Хинчина) существует такое, что для любого справедливы неравенства
Тогда с вероятностью не менее одновременно выполняются соотношения
В силу (38) при этом
Пусть
Тогда с вероятностью не менее одновременно выполняются соотношения (ср. (32))
Завершается доказательство дословным повторением такового в теореме 1, с единственным отличием - заменой в обозначениях на .
Теорема 4. Пусть выполнены условия теоремы 3 и, кроме того, существуют математические ожидания (при )
( 39) |
Тогда выполнено соотношение (35) с
( 40) |
Доказательство. Воспользуемся следующим элементарным соотношением. Пусть и - бесконечно малые по сравнению с и соответственно. Тогда с точностью до бесконечно малых более высокого порядка
Чтобы применить это соотношение к анализу в соответствии с (30), (34) и теоремой 2, положим
В силу условий теоремы 4 при малых с точностью до членов более высокого порядка
При эти величины бесконечно малы, а потому с учетом сходимости к и теоремы 3
с точностью до бесконечно малых более высокого порядка, гдеЯсно, что задача оптимизации
( 41) |
( 42) |
С целью упрощения правой части (42) воспользуемся тем, что
( 43) |
Поскольку при
по вероятности, то второе слагаемое в (43) сходится к 0, а первое в силу закона больших чисел с учетом (39) сходится к , где определено в (40). Теорема 4 доказана.Оценки метода моментов. Пусть , - некоторые функции. Рассмотрим аналоги выборочных моментов
Оценки метода моментов имеют вид
(функции и должны удовлетворять некоторым дополнительным условиям [ [ 12.3 ] , с.80], которые здесь не приводим). Очевидно, что( 44) |
( 45) |
Теорема 5. Пусть при существуют математические ожидания
функция дважды непрерывно дифференцируема в некоторой окрестности точки . Пусть существует функция такая, что( 46) |
Доказательство теоремы 5 сводится к обоснованию проведенных ранее рассуждений, позволивших получить формулу (45). В условиях теоремы 5 собраны предположения, достаточные для такого обоснования. Так, условие (46) дает возможность обосновать соотношения (44); существование обеспечивает существование , и т.д. Завершает доказательство ссылка на решение задачи оптимизации (41) и применение закона больших чисел.
Полученные в теоремах 4 и 5 нотны оценок минимального контраста и метода моментов, асимптотические дисперсии этих оценок (см. теорему 2 и [ [ 12.17 ] ] соответственно) позволяют находить рациональные объемы выборок, строить доверительные интервалы с учетом погрешностей измерений, а также сравнивать оценки по среднему квадрату ошибки (36). Подобное сравнение было проведено для оценок максимального правдоподобия и метода моментов параметров гамма-распределения. Установлено, что классический вывод о преимуществе оценок максимального правдоподобия [ [ 1.7 ] , с.99-100] неверен в случае .