Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 4080 / 1033 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 12:

Статистика интервальных данных

Метрологические, методические, статистические и вычислительные погрешности. Целесообразно выделить ряд видов погрешностей статистических данных. Погрешности, вызванные неточностью измерения исходных данных, называем метрологическими. Их максимальное значение можно оценить с помощью нотны. Впрочем, выше на примере оценивания параметров гамма-распределения показано, что переход от максимального отклонения к реально имеющемуся в вероятностно-статистической модели не меняет выводы (с точностью до умножения предельных значений погрешностей \Delta или \delta на константы). Как правило, метрологические погрешности не убывают с ростом объема выборки.

Методические погрешности вызваны неадекватностью вероятностно-статистической модели, отклонением реальности от ее предпосылок. Неадекватность обычно не исчезает при росте объема выборки. Методические погрешности целесообразно изучать с помощью "общей схемы устойчивости" [ [ 1.15 ] , [ 12.38 ] ], обобщающей популярную в теории робастных статистических процедур модель засорения большими выбросами. В настоящей главе методические погрешности не рассматриваются.

Статистическая погрешность - это та погрешность, которая традиционно рассматривается в математической статистике. Ее характеристики - дисперсия оценки, дополнение до 1 мощности критерия при фиксированной альтернативе и т.д. Как правило, статистическая погрешность стремится к 0 при росте объема выборки.

Вычислительная погрешность определяется алгоритмами расчета, в частности, правилами округления. На уровне чистой математики справедливо тождество правых частей формул (22) и (24), задающих выборочную дисперсию s^2, а на уровне вычислительной математики формула (22) дает при определенных условиях существенно больше верных значащих цифр, чем вторая [ [ 12.40 ] , с.51-52].

Выше на примере задачи оценивания параметров гамма-распределения рассмотрено совместное действие метрологических и вычислительных погрешностей, причем погрешности вычислений оценивались по классическим правилам для ручного счета [ [ 12.4 ] ]. Оказалось, что при таком подходе оценки метода моментов имеют преимущество перед оценками максимального правдоподобия в обширной области изменения параметров. Однако, если учитывать только метрологические погрешности, как это делалось выше в примерах 1-5, то с помощью аналогичных выкладок можно показать, что оценки этих двух типов имеют (при достаточно больших n ) одинаковую погрешность.

Вычислительную погрешность здесь подробно не рассматриваем. Ряд интересных результатов о ее роли в статистике получили Н.Н. Ляшенко и М.С. Никулин [ [ 12.20 ] ].

Проведем сравнение методов оценивания параметров в более общей постановке.

В теории оценивания параметров классической математической статистики установлено, что метод максимального правдоподобия, как правило, лучше (в смысле асимптотической дисперсии и асимптотического среднего квадрата ошибки), чем метод моментов. Однако в интервальной статистике это, вообще говоря, не так, что продемонстрировано выше на примере оценивания параметров гамма-распределения. Сравним эти два метода оценивания в случае интервальных данных в общей постановке. Поскольку метод максимального правдоподобия - частный случай метода минимального контраста, начнем с разбора этого несколько более общего метода.

Оценки минимального контраста. Пусть X - пространство, в котором лежат независимые одинаково распределенные случайные элементы x_1, x_2, ..., x_n, .... Будем оценивать элемент пространства параметров \Theta с помощью функции контраста f:X\times\Theta\rightarrow R^1. Оценкой минимального контраста называется

\theta_n=Arg\min\left\{\sum_{1\le i\le n}f(x_i,\theta),\theta\in\Theta\right\}.

Если множество \theta_n состоит из более чем одного элемента, то оценкой минимального контраста называют также любой элемент \theta_n.

Оценками минимального контраста являются, в частности, многие робастные статистики [ [ 1.15 ] , [ 12.45 ] ]. Эти оценки широко используются в статистике объектов нечисловой природы [ [ 1.15 ] , [ 12.38 ] ], поскольку при X=\Theta переходят в эмпирические средние, а если X=\Theta - пространство бинарных отношений - в медиану Кемени.

Пусть в X имеется мера \mu (заданная на той же \sigma -алгебре, что участвует в определении случайных элементов x_i ), и p(x;\theta) - плотность распределения x_i по мере \mu. Если

f(x;\theta)=-\ln p(x;\theta),
то оценка минимального контраста переходит в оценку максимального правдоподобия.

Асимптотическое поведение оценок минимального контраста в случае пространств X и \Theta общего вида хорошо изучено [ [ 12.25 ] ], в частности, известны условия состоятельности оценок. Здесь ограничимся случаем X = R^1, но при этом введя погрешности измерений \varepsilon_i. Примем также, что \Theta=(\theta_{min},\theta_{max})\subseteq R^1.

В рассматриваемой математической модели предполагается, что статистику известны лишь искаженные значения y_i=x_i+\varepsilon_i,i=1,2,...,n. Поэтому вместо \theta_n он вычисляет

\theta_n^*=Arg\min\left\{\sum_{1\le i\le n}f(y_i,\theta),\theta\in\Theta\right\}.

Будем изучать величину \theta_n^*-\theta_n в предположении, что погрешности измерений \varepsilon_i малы. Цель этого изучения - продемонстрировать идеи статистики интервальных данных при достаточно простых предположениях. Поэтому естественно следовать условиям и ходу рассуждений, которые обычно принимаются при изучении оценок максимального правдоподобия [ [ 2.10 ] , п.33.3].

Пусть \theta_0 - истинное значение параметра, функция f(x;\theta) трижды дифференцируема по \theta, причем

\left|\frac{\partial^3 f(x;\theta)}{\partial \theta^3}\right|<H(x)
при всех x, \theta. Тогда
\frac{\partial f(x;\theta)}{\partial\theta}=\frac{\partial f(x;\theta_0)}{\partial\theta}=
\frac{\partial^2 f(x;\theta_0)}{\partial\theta^2}
(\theta-\theta_0)+\frac12\alpha(x)H(x)(\theta-\theta_0)^2, ( 27)
где |\alpha(x)|<1.

Используя обозначения векторов x=(x_1,x_2,...,x_n),y=(y_1,y_2,...,y_n), введем суммы

B_0(x)=\frac{1}{n}\sum_{1\le i\le n}\frac{\partial f(x;\theta_0)}{\partial\theta},
B_1(x)=\frac{1}{n}\sum_{1\le i\le n}\frac{\partial^2 f(x_i;\theta_0)}{\partial\theta^2},
R(x)=\frac{1}{n}\sum_{1\le i\le n}H(x_i).

Аналогичным образом введем функции B_0(y), B_1(y), R(y), в которых вместо x_i стоят y_i, i=1,2,...,n.

Поскольку в соответствии с теоремой Ферма оценка минимального контраста \theta_n удовлетворяет уравнению

\sum_{1\le i\le n}\frac{\partial f(x_i;\theta_n)}{\partial\theta}=0, ( 28)
то, подставляя в (27) x_i вместо x и суммируя по i = 1,2,...,n, получаем, что
0=B_0(x)+B_1(x)(\theta_n-\theta_0)+\frac{\beta R(x)}{2}(\theta_n-\theta_0)^2,|\beta|<1, ( 29)
откуда
\theta_n-\theta_0=\frac{-B_0(x)}{B_1(x)+\frac{\beta R(x)}{2}}(\theta_n-\theta_0). ( 30)

Решения уравнения (28) будем также называть оценками минимального контраста. Хотя уравнение (28) - лишь необходимое условие минимума, такое словоупотребление не будет вызывать трудностей.

Теорема 1. Пусть для любого x выполнено соотношение (27). Пусть для случайной величины x_1 с распределением, соответствующим значению параметра \theta=\theta_0, существуют математические ожидания

M\frac{\partial f(x_1;\theta_0)}{\partial\theta_0}=0,
M\frac{\partial^2 f(x_1;\theta_0)}{\partial\theta_0^2}=A\ne 0,
MH(x_1)=M<+\infty. ( 31)

Тогда существуют оценки минимального контраста \theta_n такие, что \theta_n\rightarrow\theta_0 при n\rightarrow\infty (в смысле сходимости по вероятности).

Доказательство. Возьмем \varepsilon>0 и \delta>0. В силу закона больших чисел (теорема Хинчина) существует n(\varepsilon,\delta) такое, что для любого n>n(\varepsilon,\delta) справедливы неравенства

P\{|B_0|\ge\delta^2\}<\varepsilon/3,
P\{|B_1|<|A|/2\}<\varepsilon/3,
P\{R(x)>2M\}<\varepsilon/3.

Тогда с вероятностью не менее 1-\varepsilon одновременно выполняются соотношения

|B_0|\le\delta^2,|B_1|\ge|A|/2,R(x)\le 2M. ( 32)

При \theta\in[\theta_0-\delta;\theta_0+\delta] рассмотрим многочлен второй степени

y(\theta)=B_0(x)+B_1(x)(\theta-\theta_0)+\frac{\betaR(x)}{2}(\theta-\theta_0)^2
(см. формулу (29)). С вероятностью не менее 1-\varepsilon выполнены соотношения
\left|B_0+\frac{\beta R(x)}{2}(\theta-\theta_0)^2\right|\le|B_0|+
\frac{R(x)\delta^2}{2}\le\delta^2(M+1),|B_1\delta|\ge\frac{|A|\delta}{2}.

Если 0<2(M+1)\delta<|A|, то знак y(\theta) в точках \theta_1=\theta_0-\delta и \theta_2=\theta_0+\delta определяется знаком линейного члена B_1(\theta_i-\theta_0),i=1,2, следовательно, знаки y(\theta_1) и y(\theta_2) различны, а потому существует \theta_n\in[\theta_0-\delta;\theta_0+\delta] такое, что y(\theta_n)=0, что и требовалось доказать.

Теорема 2. Пусть выполнены условия теоремы 1 и, кроме того, для случайной величины x_1, распределение которой соответствует значению параметра \theta=\theta_0, существует математическое ожидание

M\left(\frac{\partial f(x_1,\theta_0)}{\partial\theta}\right)^2=\sigma^2.

Тогда оценка минимального контраста имеет асимптотически нормальное распределение:

\lim_{n\rightarrow\infty}P\left\{\sqrt{n}\frac{|A|}{\sigma}(\theta_n-\theta_0)<x\right}=\Phi(x) ( 33)

для любого x, где \Phi(x) - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1.

Доказательство. Из центральной предельной теоремы вытекает, что числитель в правой части формулы (30) асимптотически нормален с математическим ожиданием 0 и дисперсией \sigma^2. Первое слагаемое в знаменателе формулы (30) в силу условий (31) и закона больших чисел сходится по вероятности к A\ne 0, а второе слагаемое по тем же основаниям и с учетом теоремы 1 - к 0. Итак, знаменатель сходится по вероятности к A\ne 0. Доказательство теоремы 2 завершает ссылка на теорему о наследовании сходимости (4.3 и [ [ 1.15 ] , \S 2.4]).

Нотна оценки минимального контраста. Аналогично (30) нетрудно получить, что

\theta_n^*-\theta_0=\frac{-B_0(y)}{B_1(y)+\frac{\beta(y)R(y)}{2}}(\theta_n^*-\theta_0),
|\beta(y)|<. ( 34)

Следовательно, \theta_n^*-\theta_n есть разность правых частей формул (30) и (34). Найдем максимально возможное значение (т.е. нотну) величины при ограничениях (1) на абсолютные погрешности результатов измерений.

Покажем, что при \Delta\rightarrow 0 для некоторого C>0 нотна имеет вид

N_{\theta_n}(x)=\sup_{\{\varepsilon\}}|\theta_n^*-\theta_n|=C\Delta(1+o(1)). ( 35)

Поскольку \theta_n^*-\theta_n=(\theta_n^*-\theta_0)+(\theta_0-\theta_n), то из (33) и (35) следует, что

\sup_{\{\varepsilon\}}M(\theta_n^*-\theta_n)^2=
\left(C^2\Delta^2+\frac{\sigma^2}{A^2 n}\right)(1+o(2)). ( 36)

Можно сказать, что наличие погрешностей \varepsilon_i приводит к появлению систематической ошибки (смещения) у оценки метода максимального правдоподобия, и нотна является максимально возможным значением этой систематической ошибки.

В правой части (36) первое слагаемое - квадрат асимптотической нотны, второе соответствует статистической ошибке. Приравнивая их, получаем рациональный объем выборки

n_{rat}=\left(\frac{\sigma}{CA\Delta}\right)^2.

Остается доказать соотношение (35) и вычислить C. Укажем сначала условия, при которых \theta_n^*\rightarrow\theta_0 (по вероятности) при n\rightarrow\infty одновременно с \Delta\rightarrow 0.

Теорема 3. Пусть существуют константа \Delta_0 и функции g_1(x), g_2(x), g_3(x) такие, что при 0\le\Delta\le\Delta_0 и -1\le\gamma\le 1 выполнены неравенства (ср. формулу (27))

\begin{aligned}
&\left|\frac{\partial f(x;\theta_0)}{\partial \theta}-
\frac{\partial f(x+\gamma\Delta;\theta_0)}{\partial \theta}\right|\le g_1(x)\Delta, \\
&\left|\frac{\partial^2 f(x;\theta_0)}{\partial \theta^2}-
\frac{\partial^2 f(x+\gamma\Delta;\theta_0)}{\partial \theta^2}\right|\le g_2(x)\Delta, \\
&|H(x)-H(x+\gamma\Delta)|\le g_3(x)\Delta
\end{aligned} ( 37)
при всех x. Пусть для случайной величины x_1, распределение которой соответствует \theta=\theta_0, существуют m_1 = Mg_1(x_1), m_2 = Mg_2(x_1) и m_3 = Mg_3(x_1). Пусть выполнены условия теоремы 1. Тогда \theta_n^*\rightarrow\theta_0 (по вероятности) при \Delta\rightarrow 0,n\rightarrow\infty.

Доказательство проведем по схеме доказательства теоремы 1. Из неравенств (37) вытекает, что

\begin{aligned}
&|B_0(y)-B_0(x)|\le\Delta\left(\frac{1}{n}\sum_{1\le i\le n}g_1(x_i)\right), \\
&|B_1(y)-B_1(x)|\le\Delta\left(\frac{1}{n}\sum_{1\le i\le n}g_2(x_i)\right), \\
&|R(y)-R(x)|\le\Delta\left(\frac{1}{n}\sum_{1\le i\le n}g_3(x_i)\right).
\end{aligned} ( 38)

Возьмем \varepsilon>0 и \delta>0. В силу закона больших чисел (теорема Хинчина) существует n(\varepsilon,\delta) такое, что для любого n>n(\varepsilon,\delta) справедливы неравенства

\begin{aligned}
&P\left\{|B_0|\ge\frac{\delta^2}{2}\right\}<\frac{\varepsilon}{6},
\left\{|B_1|<\frac{3|A|}{4}\right\}<\frac{\varepsilon}{6},
P\left\{R(x)>\frac{3M}{2}\right\}<\frac{\varepsilon}{6}, \\
&P\left\{\frac{1}{n}\sum_{1\le i\le n}g_j(x_i)>2m_j\right\}<\frac{\varepsilon}{6},j=1,2,3.
\end{aligned}

Тогда с вероятностью не менее 1-\varepsilon одновременно выполняются соотношения

|B_0|<\frac12\delta^2,|B_1\ge\frac{3|A|}{4}|,R(x)\le\frac{3M}{2},
\frac{1}{n}\sum_{1\le i\le n}g_j(x_i)\le 2m_j, j=1,2,3.

В силу (38) при этом

|B_0(y)|<\frac12\delta^2+2\Delta m_1,
|B_1(y)|\ge\frac{3|A|}{4}-2\Delta m_2,
R(y)\le\frac{3M}{2}+2\Delta m_3.

Пусть

0\le\Delta\le\min\left\{\frac14\frac{\delta^2}{m_1};\frac18\frac{|A|}{m_2};\frac14\frac{M}{m_3}\right\}.

Тогда с вероятностью не менее 1-\varepsilon одновременно выполняются соотношения (ср. (32))

|B_0(y)|\le\delta^2,|B_1(y)|\ge|A|/2,R(y)\le 2M.

Завершается доказательство дословным повторением такового в теореме 1, с единственным отличием - заменой в обозначениях x на y.

Теорема 4. Пусть выполнены условия теоремы 3 и, кроме того, существуют математические ожидания (при \theta=\theta_0 )

M\left|\frac{\partial^2 f(x_1,\theta_0)}{\partial x\partial\theta}\right|,\;
M\left|\frac{\partial^3 f(x_1,\theta_0)}{\partial x\partial\theta^2}\right|. ( 39)

Тогда выполнено соотношение (35) с

C=\frac{1}{|A|}M\left|\frac{\partial^2 f(x_1,\theta_0)}{\partial x\partial\theta}\right|. ( 40)

Доказательство. Воспользуемся следующим элементарным соотношением. Пусть a и b - бесконечно малые по сравнению с Z и B соответственно. Тогда с точностью до бесконечно малых более высокого порядка

\frac{Z+a}{B+b}-\frac{Z}{B}=\frac{aB-bZ}{B^2}.

Чтобы применить это соотношение к анализу \theta_n^*-\theta_n в соответствии с (30), (34) и теоремой 2, положим

Z=B_0(x),\;a=B_0(y)-B_0(x),\;B=B_1(x),\;b=(B_1(y)-B_1(x))+\frac{\beta(y)R(y)}{2}(\theta_n^*-\theta_0).

В силу условий теоремы 4 при малых \varepsilon_i с точностью до членов более высокого порядка

B_0(y)-B_0(x)=\frac{1}{n}\sum_{1\le i\le n}\frac{\partial^2 f(x_i,\theta_0)}{\partial x_i\partial\theta_0}\varepsilon_i,
B_1(y)-B_1(x)=\frac{1}{n}\sum_{1\le i\le n}\frac{\partial^3 f(x_i,\theta_0)}{\partial x_i\partial\theta_0^2}\varepsilon_i.

При \Delta\rightarrow 0 эти величины бесконечно малы, а потому с учетом сходимости B_1(x) к A и теоремы 3

\theta_n^*-\theta_n=\frac{1}{A_2}{(B_0(y)-B_0(x))A-(B_1(y)-B_1(x))B_0(x)}=\frac{1}{A^2}\sum_{1\le i\le n}\gamma_i\varepsilon_i
с точностью до бесконечно малых более высокого порядка, где
\gamma_i=\frac{\partial^2 f(x_i,\theta_0)}{\partial x_i\partial\theta_0}A-
\frac{\partial^3 f(x_i,\theta_0)}{\partial x_i\partial\theta_0^2}B_0(x).

Ясно, что задача оптимизации

\left\{
\begin{aligned}
&\sum_{1\le i\le n}\gamma_i\varepsilon_i\rightarrow\max \\
&|\varepsilon_i|\le\Delta, i=1,2,...,,
\end{aligned}
\right. ( 41)
имеет решение
\varepsilon_i=
\left\{
\begin{aligned}
&\Delta,&\gamma_i\ge 0, \\
&-\Delta,&\gamma_i<0,
\end{aligned}
\right.
при этом максимальное значение линейной формы есть \Delta\sum_{1\le i\le n}|\gamma_i|. Поэтому
\sup_{\{\varepsilon\}}|\theta_n^*-\theta_n|=\frac{\Delta}{A^2n}\sum_{1\le i\le n}|\gamma_i|. ( 42)

С целью упрощения правой части (42) воспользуемся тем, что

\frac{1}{n}\sum_{1\le i\le n}|\gamma_i|=\frac{|A|}{n}\sum_{1\le i\le n}\left|\frac{\partial^2 f(x_i;\theta_0)}{\partial x\partial\theta_0}\right|+
\alpha\frac{|B_0(x)|}{n}\sum_{1\le i\le n}\left|\frac{\partial^3 f(x_i;\theta_0)}{\partial x\partial\theta_0^2}\right|, ( 43)
где |\alpha|\le 1.

Поскольку при m\rightarrow\infty

\frac{1}{n}\sum_{1\le i\le n}\left|\frac{\partial^3 f(x_i;\theta_0)}{\partial x\partial\theta_0^2}\right|\rightarrow M\left|\frac{\partial^3 f(x_1;\theta_0)}{\partial x\partial\theta_0^2}\right|<+\infty,\;B_0(x)\rightarrow 0
по вероятности, то второе слагаемое в (43) сходится к 0, а первое в силу закона больших чисел с учетом (39) сходится к CA^2, где C определено в (40). Теорема 4 доказана.

Оценки метода моментов. Пусть g:R^k\rightarrowR^1,h_j:R^1\rightarrow R^1, j=1,2,...,k, - некоторые функции. Рассмотрим аналоги выборочных моментов

m_j=\frac{1}{n}\sum_{1\le i\le n}h_j(x_i),\;j=1,2,...,k.

Оценки метода моментов имеют вид

\widehat{\theta}_n=g(m_1,m_2,...,m_k)
(функции g и h_j должны удовлетворять некоторым дополнительным условиям [ [ 12.3 ] , с.80], которые здесь не приводим). Очевидно, что
\theta_n(y)-\theta_n(x)=\sum_{1\le j\le k}\frac{\partial g}{\partial m_j}(m_j(y)-m_j(x)),
m_j(y)-m_j(x)=\frac{1}{n}\sum_{1\le j\le n}\frac{dh_j(x_i)}{dx_i}\varepsilon_i,j=1,2,...,k, ( 44)
с точностью до бесконечно малых более высокого порядка, а потому с той же точностью
\theta_n(y)-\theta_n(x)=\frac{1}{n}\sum_{1\le j\le n}\left(\sum_{1\le j\le k}\frac{\partial g}{\partial m_j}\frac{dh_j(x_i)}{dx_i}\right)\varepsilon_i. ( 45)

Теорема 5. Пусть при \theta=\theta_0 существуют математические ожидания

M_j=Mm_j=Mh_j(x_1), M\left(\frac{dh_j(x_1)}{dx_1}\right), j=1,2,...,n,
функция g дважды непрерывно дифференцируема в некоторой окрестности точки (M_1,M_2,...,M_k). Пусть существует функция t:R^1\rightarrow R^1 такая, что
\sup_{|x-y|\le\Delta}\left|h_j(y)-h_j(x)-\frac{dh_j(x)}{dx}(y-x)\right|\let(x)\Delta^2,\;j=1,2,...,k, ( 46)
причем Mt(x_1) существует. Тогда
\sup_{\{\varepsilon\}}|\widehat{\theta}_n(y)-\widehat{\theta}_n(x)|=C_1\Delta
с точностью до бесконечно малых более высокого порядка, причем
C_1=M\left|\sum_{1\le j\le k}\frac{\partial g(M_1,M_2,...,M_k)}{\partial m_j}\frac{dh_j(x_1)}{dx_1}\right|.

Доказательство теоремы 5 сводится к обоснованию проведенных ранее рассуждений, позволивших получить формулу (45). В условиях теоремы 5 собраны предположения, достаточные для такого обоснования. Так, условие (46) дает возможность обосновать соотношения (44); существование M\left(\frac{dh_j(x_1)}{dx_1}\right) обеспечивает существование C_1, и т.д. Завершает доказательство ссылка на решение задачи оптимизации (41) и применение закона больших чисел.

Полученные в теоремах 4 и 5 нотны оценок минимального контраста и метода моментов, асимптотические дисперсии этих оценок (см. теорему 2 и [ [ 12.17 ] ] соответственно) позволяют находить рациональные объемы выборок, строить доверительные интервалы с учетом погрешностей измерений, а также сравнивать оценки по среднему квадрату ошибки (36). Подобное сравнение было проведено для оценок максимального правдоподобия и метода моментов параметров гамма-распределения. Установлено, что классический вывод о преимуществе оценок максимального правдоподобия [ [ 1.7 ] , с.99-100] неверен в случае \Delta>0.

Анастасия Маркова
Анастасия Маркова

Здравствуйте!

4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1.

Сегодня вижу, что я вне курса! Почему так произошло?