НОУ ИНТУИТ | Прикладная статистика. Лекция 12: Статистика интервальных данных

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

|

Вам нравится? Нравится 61 студенту

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Метрологические, методические, статистические и вычислительные погрешности. Целесообразно выделить ряд видов погрешностей статистических данных. Погрешности, вызванные неточностью измерения исходных данных, называем метрологическими. Их максимальное значение можно оценить с помощью нотны. Впрочем, выше на примере оценивания параметров гамма-распределения показано, что переход от максимального отклонения к реально имеющемуся в вероятностно-статистической модели не меняет выводы (с точностью до умножения предельных значений погрешностей $\Delta$ или $\delta$ на константы). Как правило, метрологические погрешности не убывают с ростом объема выборки.

Методические погрешности вызваны неадекватностью вероятностно-статистической модели, отклонением реальности от ее предпосылок. Неадекватность обычно не исчезает при росте объема выборки. Методические погрешности целесообразно изучать с помощью "общей схемы устойчивости" [ [ 1.15 ] , [ 12.38 ] ], обобщающей популярную в теории робастных статистических процедур модель засорения большими выбросами. В настоящей главе методические погрешности не рассматриваются.

Статистическая погрешность - это та погрешность, которая традиционно рассматривается в математической статистике. Ее характеристики - дисперсия оценки, дополнение до 1 мощности критерия при фиксированной альтернативе и т.д. Как правило, статистическая погрешность стремится к 0 при росте объема выборки.

Вычислительная погрешность определяется алгоритмами расчета, в частности, правилами округления. На уровне чистой математики справедливо тождество правых частей формул (22) и (24), задающих выборочную дисперсию s^2 , а на уровне вычислительной математики формула (22) дает при определенных условиях существенно больше верных значащих цифр, чем вторая [ [ 12.40 ] , с.51-52].

Выше на примере задачи оценивания параметров гамма-распределения рассмотрено совместное действие метрологических и вычислительных погрешностей, причем погрешности вычислений оценивались по классическим правилам для ручного счета [ [ 12.4 ] ]. Оказалось, что при таком подходе оценки метода моментов имеют преимущество перед оценками максимального правдоподобия в обширной области изменения параметров. Однако, если учитывать только метрологические погрешности, как это делалось выше в примерах 1-5, то с помощью аналогичных выкладок можно показать, что оценки этих двух типов имеют (при достаточно больших ) одинаковую погрешность.

Вычислительную погрешность здесь подробно не рассматриваем. Ряд интересных результатов о ее роли в статистике получили Н.Н. Ляшенко и М.С. Никулин [ [ 12.20 ] ].

Проведем сравнение методов оценивания параметров в более общей постановке.

В теории оценивания параметров классической математической статистики установлено, что метод максимального правдоподобия, как правило, лучше (в смысле асимптотической дисперсии и асимптотического среднего квадрата ошибки), чем метод моментов. Однако в интервальной статистике это, вообще говоря, не так, что продемонстрировано выше на примере оценивания параметров гамма-распределения. Сравним эти два метода оценивания в случае интервальных данных в общей постановке. Поскольку метод максимального правдоподобия - частный случай метода минимального контраста, начнем с разбора этого несколько более общего метода.

Оценки минимального контраста. Пусть - пространство, в котором лежат независимые одинаково распределенные случайные элементы x_1, x_2, ..., x_n, .. .. Будем оценивать элемент пространства параметров $\Theta$ с помощью функции контраста $f:X\times\Theta\rightarrow R^1$ . Оценкой минимального контраста называется

$\theta_n=Arg\min\left\{\sum_{1\le i\le n}f(x_i,\theta),\theta\in\Theta\right\}.$

Если множество $\theta_n$ состоит из более чем одного элемента, то оценкой минимального контраста называют также любой элемент $\theta_n$ .

Оценками минимального контраста являются, в частности, многие робастные статистики [ [ 1.15 ] , [ 12.45 ] ]. Эти оценки широко используются в статистике объектов нечисловой природы [ [ 1.15 ] , [ 12.38 ] ], поскольку при $X=\Theta$ переходят в эмпирические средние, а если $X=\Theta$ - пространство бинарных отношений - в медиану Кемени.

Пусть в имеется мера $\mu$ (заданная на той же $\sigma$ -алгебре, что участвует в определении случайных элементов x_i ), и $p(x;\theta)$ - плотность распределения x_i по мере $\mu$ . Если

$f(x;\theta)=-\ln p(x;\theta),$

то оценка минимального контраста переходит в оценку максимального правдоподобия.

Асимптотическое поведение оценок минимального контраста в случае пространств и $\Theta$ общего вида хорошо изучено [ [ 12.25 ] ], в частности, известны условия состоятельности оценок. Здесь ограничимся случаем X = R^1 , но при этом введя погрешности измерений $\varepsilon_i$ . Примем также, что $\Theta=(\theta_{min},\theta_{max})\subseteq R^1$ .

В рассматриваемой математической модели предполагается, что статистику известны лишь искаженные значения $y_i=x_i+\varepsilon_i,i=1,2,...,n$ . Поэтому вместо $\theta_n$ он вычисляет

$\theta_n^*=Arg\min\left\{\sum_{1\le i\le n}f(y_i,\theta),\theta\in\Theta\right\}.$

Будем изучать величину $\theta_n^*-\theta_n$ в предположении, что погрешности измерений $\varepsilon_i$ малы. Цель этого изучения - продемонстрировать идеи статистики интервальных данных при достаточно простых предположениях. Поэтому естественно следовать условиям и ходу рассуждений, которые обычно принимаются при изучении оценок максимального правдоподобия [ [ 2.10 ] , п.33.3].

Пусть $\theta_0$ - истинное значение параметра, функция f(x;\theta) трижды дифференцируема по $\theta$ , причем

$\left|\frac{\partial^3 f(x;\theta)}{\partial \theta^3}\right|<H(x)$

при всех $x, \theta$ . Тогда

$\frac{\partial f(x;\theta)}{\partial\theta}=\frac{\partial f(x;\theta_0)}{\partial\theta}= \frac{\partial^2 f(x;\theta_0)}{\partial\theta^2} (\theta-\theta_0)+\frac12\alpha(x)H(x)(\theta-\theta_0)^2,$

( 27)

где $|\alpha(x)|<1$ .

Используя обозначения векторов x=(x_1,x_2,...,x_n),y=(y_1,y_2,...,y_n) , введем суммы

$B_0(x)=\frac{1}{n}\sum_{1\le i\le n}\frac{\partial f(x;\theta_0)}{\partial\theta}, B_1(x)=\frac{1}{n}\sum_{1\le i\le n}\frac{\partial^2 f(x_i;\theta_0)}{\partial\theta^2}, R(x)=\frac{1}{n}\sum_{1\le i\le n}H(x_i).$

Аналогичным образом введем функции B_0(y), B_1(y), R(y) , в которых вместо x_i стоят y_i, i=1,2,...,n .

Поскольку в соответствии с теоремой Ферма оценка минимального контраста $\theta_n$ удовлетворяет уравнению

$\sum_{1\le i\le n}\frac{\partial f(x_i;\theta_n)}{\partial\theta}=0,$

( 28)

то, подставляя в (27) x_i

вместо

и суммируя по i = 1,2,...,n

, получаем, что

$0=B_0(x)+B_1(x)(\theta_n-\theta_0)+\frac{\beta R(x)}{2}(\theta_n-\theta_0)^2,|\beta|<1,$

( 29)

откуда

$\theta_n-\theta_0=\frac{-B_0(x)}{B_1(x)+\frac{\beta R(x)}{2}}(\theta_n-\theta_0).$

( 30)

Решения уравнения (28) будем также называть оценками минимального контраста. Хотя уравнение (28) - лишь необходимое условие минимума, такое словоупотребление не будет вызывать трудностей.

Теорема 1. Пусть для любого выполнено соотношение (27). Пусть для случайной величины x_1 с распределением, соответствующим значению параметра $\theta=\theta_0$ , существуют математические ожидания

$M\frac{\partial f(x_1;\theta_0)}{\partial\theta_0}=0, M\frac{\partial^2 f(x_1;\theta_0)}{\partial\theta_0^2}=A\ne 0, MH(x_1)=M<+\infty.$

( 31)

Тогда существуют оценки минимального контраста $\theta_n$ такие, что $\theta_n\rightarrow\theta_0$ при $n\rightarrow\infty$ (в смысле сходимости по вероятности).

Доказательство. Возьмем $\varepsilon>0$ и $\delta>0$ . В силу закона больших чисел (теорема Хинчина) существует $n(\varepsilon,\delta)$ такое, что для любого $n>n(\varepsilon,\delta)$ справедливы неравенства

$P\{|B_0|\ge\delta^2\}<\varepsilon/3, P\{|B_1|<|A|/2\}<\varepsilon/3, P\{R(x)>2M\}<\varepsilon/3.$

Тогда с вероятностью не менее $1-\varepsilon$ одновременно выполняются соотношения

$|B_0|\le\delta^2,|B_1|\ge|A|/2,R(x)\le 2M.$

( 32)

При $\theta\in[\theta_0-\delta;\theta_0+\delta]$ рассмотрим многочлен второй степени

$y(\theta)=B_0(x)+B_1(x)(\theta-\theta_0)+\frac{\betaR(x)}{2}(\theta-\theta_0)^2$

(см. формулу (29)). С вероятностью не менее $1-\varepsilon$ выполнены соотношения

$\left|B_0+\frac{\beta R(x)}{2}(\theta-\theta_0)^2\right|\le|B_0|+ \frac{R(x)\delta^2}{2}\le\delta^2(M+1),|B_1\delta|\ge\frac{|A|\delta}{2}.$

Если $0<2(M+1)\delta<|A|$ , то знак $y(\theta)$ в точках $\theta_1=\theta_0-\delta$ и $\theta_2=\theta_0+\delta$ определяется знаком линейного члена $B_1(\theta_i-\theta_0),i=1,2$ , следовательно, знаки $y(\theta_1)$ и $y(\theta_2)$ различны, а потому существует $\theta_n\in[\theta_0-\delta;\theta_0+\delta]$ такое, что $y(\theta_n)=0$ , что и требовалось доказать.

Теорема 2. Пусть выполнены условия теоремы 1 и, кроме того, для случайной величины x_1 , распределение которой соответствует значению параметра $\theta=\theta_0$ , существует математическое ожидание

$M\left(\frac{\partial f(x_1,\theta_0)}{\partial\theta}\right)^2=\sigma^2.$

Тогда оценка минимального контраста имеет асимптотически нормальное распределение:

$\lim_{n\rightarrow\infty}P\left\{\sqrt{n}\frac{|A|}{\sigma}(\theta_n-\theta_0)<x\right}=\Phi(x)$

( 33)

для любого , где $\Phi(x)$ - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1.

Доказательство. Из центральной предельной теоремы вытекает, что числитель в правой части формулы (30) асимптотически нормален с математическим ожиданием 0 и дисперсией $\sigma^2$ . Первое слагаемое в знаменателе формулы (30) в силу условий (31) и закона больших чисел сходится по вероятности к $A\ne 0$ , а второе слагаемое по тем же основаниям и с учетом теоремы 1 - к 0. Итак, знаменатель сходится по вероятности к $A\ne 0$ . Доказательство теоремы 2 завершает ссылка на теорему о наследовании сходимости (4.3 и [ [ 1.15 ] , $\S$ 2.4]).

Нотна оценки минимального контраста. Аналогично (30) нетрудно получить, что

$\theta_n^*-\theta_0=\frac{-B_0(y)}{B_1(y)+\frac{\beta(y)R(y)}{2}}(\theta_n^*-\theta_0), |\beta(y)|<.$

( 34)

Следовательно, $\theta_n^*-\theta_n$ есть разность правых частей формул (30) и (34). Найдем максимально возможное значение (т.е. нотну) величины при ограничениях (1) на абсолютные погрешности результатов измерений.

Покажем, что при $\Delta\rightarrow 0$ для некоторого C>0 нотна имеет вид

$N_{\theta_n}(x)=\sup_{\{\varepsilon\}}|\theta_n^*-\theta_n|=C\Delta(1+o(1)).$

( 35)

Поскольку $\theta_n^*-\theta_n=(\theta_n^*-\theta_0)+(\theta_0-\theta_n)$ , то из (33) и (35) следует, что

$\sup_{\{\varepsilon\}}M(\theta_n^*-\theta_n)^2= \left(C^2\Delta^2+\frac{\sigma^2}{A^2 n}\right)(1+o(2)).$

( 36)

Можно сказать, что наличие погрешностей $\varepsilon_i$ приводит к появлению систематической ошибки (смещения) у оценки метода максимального правдоподобия, и нотна является максимально возможным значением этой систематической ошибки.

В правой части (36) первое слагаемое - квадрат асимптотической нотны, второе соответствует статистической ошибке. Приравнивая их, получаем рациональный объем выборки

$n_{rat}=\left(\frac{\sigma}{CA\Delta}\right)^2.$

Остается доказать соотношение (35) и вычислить . Укажем сначала условия, при которых $\theta_n^*\rightarrow\theta_0$ (по вероятности) при $n\rightarrow\infty$ одновременно с $\Delta\rightarrow 0$ .

Теорема 3. Пусть существуют константа $\Delta_0$ и функции g_1(x), g_2(x), g_3(x) такие, что при $0\le\Delta\le\Delta_0$ и $-1\le\gamma\le 1$ выполнены неравенства (ср. формулу (27))

$\begin{aligned} &\left|\frac{\partial f(x;\theta_0)}{\partial \theta}- \frac{\partial f(x+\gamma\Delta;\theta_0)}{\partial \theta}\right|\le g_1(x)\Delta, \\ &\left|\frac{\partial^2 f(x;\theta_0)}{\partial \theta^2}- \frac{\partial^2 f(x+\gamma\Delta;\theta_0)}{\partial \theta^2}\right|\le g_2(x)\Delta, \\ &|H(x)-H(x+\gamma\Delta)|\le g_3(x)\Delta \end{aligned}$

( 37)

при всех

. Пусть для случайной величины x_1

, распределение которой соответствует $\theta=\theta_0$ , существуют m_1 = Mg_1(x_1), m_2 = Mg_2(x_1)

и

. Пусть выполнены условия теоремы 1. Тогда $\theta_n^*\rightarrow\theta_0$ (по вероятности) при $\Delta\rightarrow 0,n\rightarrow\infty$ .

Доказательство проведем по схеме доказательства теоремы 1. Из неравенств (37) вытекает, что

$\begin{aligned} &|B_0(y)-B_0(x)|\le\Delta\left(\frac{1}{n}\sum_{1\le i\le n}g_1(x_i)\right), \\ &|B_1(y)-B_1(x)|\le\Delta\left(\frac{1}{n}\sum_{1\le i\le n}g_2(x_i)\right), \\ &|R(y)-R(x)|\le\Delta\left(\frac{1}{n}\sum_{1\le i\le n}g_3(x_i)\right). \end{aligned}$

( 38)

Возьмем $\varepsilon>0$ и $\delta>0$ . В силу закона больших чисел (теорема Хинчина) существует $n(\varepsilon,\delta)$ такое, что для любого $n>n(\varepsilon,\delta)$ справедливы неравенства

$\begin{aligned} &P\left\{|B_0|\ge\frac{\delta^2}{2}\right\}<\frac{\varepsilon}{6}, \left\{|B_1|<\frac{3|A|}{4}\right\}<\frac{\varepsilon}{6}, P\left\{R(x)>\frac{3M}{2}\right\}<\frac{\varepsilon}{6}, \\ &P\left\{\frac{1}{n}\sum_{1\le i\le n}g_j(x_i)>2m_j\right\}<\frac{\varepsilon}{6},j=1,2,3. \end{aligned}$

Тогда с вероятностью не менее $1-\varepsilon$ одновременно выполняются соотношения

$|B_0|<\frac12\delta^2,|B_1\ge\frac{3|A|}{4}|,R(x)\le\frac{3M}{2}, \frac{1}{n}\sum_{1\le i\le n}g_j(x_i)\le 2m_j, j=1,2,3.$

В силу (38) при этом

$|B_0(y)|<\frac12\delta^2+2\Delta m_1, |B_1(y)|\ge\frac{3|A|}{4}-2\Delta m_2, R(y)\le\frac{3M}{2}+2\Delta m_3.$

Пусть

$0\le\Delta\le\min\left\{\frac14\frac{\delta^2}{m_1};\frac18\frac{|A|}{m_2};\frac14\frac{M}{m_3}\right\}.$

Тогда с вероятностью не менее $1-\varepsilon$ одновременно выполняются соотношения (ср. (32))

$|B_0(y)|\le\delta^2,|B_1(y)|\ge|A|/2,R(y)\le 2M.$

Завершается доказательство дословным повторением такового в теореме 1, с единственным отличием - заменой в обозначениях на .

Теорема 4. Пусть выполнены условия теоремы 3 и, кроме того, существуют математические ожидания (при $\theta=\theta_0$ )

$M\left|\frac{\partial^2 f(x_1,\theta_0)}{\partial x\partial\theta}\right|,\; M\left|\frac{\partial^3 f(x_1,\theta_0)}{\partial x\partial\theta^2}\right|.$

( 39)

Тогда выполнено соотношение (35) с

$C=\frac{1}{|A|}M\left|\frac{\partial^2 f(x_1,\theta_0)}{\partial x\partial\theta}\right|.$

( 40)

Доказательство. Воспользуемся следующим элементарным соотношением. Пусть и - бесконечно малые по сравнению с и соответственно. Тогда с точностью до бесконечно малых более высокого порядка

$\frac{Z+a}{B+b}-\frac{Z}{B}=\frac{aB-bZ}{B^2}.$

Чтобы применить это соотношение к анализу $\theta_n^*-\theta_n$ в соответствии с (30), (34) и теоремой 2, положим

$Z=B_0(x),\;a=B_0(y)-B_0(x),\;B=B_1(x),\;b=(B_1(y)-B_1(x))+\frac{\beta(y)R(y)}{2}(\theta_n^*-\theta_0).$

В силу условий теоремы 4 при малых $\varepsilon_i$ с точностью до членов более высокого порядка

$B_0(y)-B_0(x)=\frac{1}{n}\sum_{1\le i\le n}\frac{\partial^2 f(x_i,\theta_0)}{\partial x_i\partial\theta_0}\varepsilon_i, B_1(y)-B_1(x)=\frac{1}{n}\sum_{1\le i\le n}\frac{\partial^3 f(x_i,\theta_0)}{\partial x_i\partial\theta_0^2}\varepsilon_i.$

При $\Delta\rightarrow 0$ эти величины бесконечно малы, а потому с учетом сходимости B_1(x) к и теоремы 3

$\theta_n^*-\theta_n=\frac{1}{A_2}{(B_0(y)-B_0(x))A-(B_1(y)-B_1(x))B_0(x)}=\frac{1}{A^2}\sum_{1\le i\le n}\gamma_i\varepsilon_i$

с точностью до бесконечно малых более высокого порядка, где

$\gamma_i=\frac{\partial^2 f(x_i,\theta_0)}{\partial x_i\partial\theta_0}A- \frac{\partial^3 f(x_i,\theta_0)}{\partial x_i\partial\theta_0^2}B_0(x).$

Ясно, что задача оптимизации

$\left\{ \begin{aligned} &\sum_{1\le i\le n}\gamma_i\varepsilon_i\rightarrow\max \\ &|\varepsilon_i|\le\Delta, i=1,2,...,, \end{aligned} \right.$

( 41)

имеет решение

$\varepsilon_i= \left\{ \begin{aligned} &\Delta,&\gamma_i\ge 0, \\ &-\Delta,&\gamma_i<0, \end{aligned} \right.$

при этом максимальное значение линейной формы есть $\Delta\sum_{1\le i\le n}|\gamma_i|$ . Поэтому

$\sup_{\{\varepsilon\}}|\theta_n^*-\theta_n|=\frac{\Delta}{A^2n}\sum_{1\le i\le n}|\gamma_i|.$

( 42)

С целью упрощения правой части (42) воспользуемся тем, что

$\frac{1}{n}\sum_{1\le i\le n}|\gamma_i|=\frac{|A|}{n}\sum_{1\le i\le n}\left|\frac{\partial^2 f(x_i;\theta_0)}{\partial x\partial\theta_0}\right|+ \alpha\frac{|B_0(x)|}{n}\sum_{1\le i\le n}\left|\frac{\partial^3 f(x_i;\theta_0)}{\partial x\partial\theta_0^2}\right|,$

( 43)

где $|\alpha|\le 1$ .

Поскольку при $m\rightarrow\infty$

$\frac{1}{n}\sum_{1\le i\le n}\left|\frac{\partial^3 f(x_i;\theta_0)}{\partial x\partial\theta_0^2}\right|\rightarrow M\left|\frac{\partial^3 f(x_1;\theta_0)}{\partial x\partial\theta_0^2}\right|<+\infty,\;B_0(x)\rightarrow 0$

по вероятности, то второе слагаемое в (43) сходится к 0, а первое в силу закона больших чисел с учетом (39) сходится к CA^2

, где

определено в (40). Теорема 4 доказана.

Оценки метода моментов. Пусть $g:R^k\rightarrowR^1,h_j:R^1\rightarrow R^1, j=1,2,...,k$ , - некоторые функции. Рассмотрим аналоги выборочных моментов

$m_j=\frac{1}{n}\sum_{1\le i\le n}h_j(x_i),\;j=1,2,...,k.$

Оценки метода моментов имеют вид

$\widehat{\theta}_n=g(m_1,m_2,...,m_k)$

(функции

и

должны удовлетворять некоторым дополнительным условиям [ [ 12.3 ] , с.80], которые здесь не приводим). Очевидно, что

$\theta_n(y)-\theta_n(x)=\sum_{1\le j\le k}\frac{\partial g}{\partial m_j}(m_j(y)-m_j(x)),$

$m_j(y)-m_j(x)=\frac{1}{n}\sum_{1\le j\le n}\frac{dh_j(x_i)}{dx_i}\varepsilon_i,j=1,2,...,k,$

( 44)

с точностью до бесконечно малых более высокого порядка, а потому с той же точностью

$\theta_n(y)-\theta_n(x)=\frac{1}{n}\sum_{1\le j\le n}\left(\sum_{1\le j\le k}\frac{\partial g}{\partial m_j}\frac{dh_j(x_i)}{dx_i}\right)\varepsilon_i.$

( 45)

Теорема 5. Пусть при $\theta=\theta_0$ существуют математические ожидания

$M_j=Mm_j=Mh_j(x_1), M\left(\frac{dh_j(x_1)}{dx_1}\right), j=1,2,...,n,$

функция

дважды непрерывно дифференцируема в некоторой окрестности точки (M_1,M_2,...,M_k)

. Пусть существует функция $t:R^1\rightarrow R^1$ такая, что

$\sup_{|x-y|\le\Delta}\left|h_j(y)-h_j(x)-\frac{dh_j(x)}{dx}(y-x)\right|\let(x)\Delta^2,\;j=1,2,...,k,$

( 46)

причем

существует. Тогда

$\sup_{\{\varepsilon\}}|\widehat{\theta}_n(y)-\widehat{\theta}_n(x)|=C_1\Delta$

с точностью до бесконечно малых более высокого порядка, причем

$C_1=M\left|\sum_{1\le j\le k}\frac{\partial g(M_1,M_2,...,M_k)}{\partial m_j}\frac{dh_j(x_1)}{dx_1}\right|.$

Доказательство теоремы 5 сводится к обоснованию проведенных ранее рассуждений, позволивших получить формулу (45). В условиях теоремы 5 собраны предположения, достаточные для такого обоснования. Так, условие (46) дает возможность обосновать соотношения (44); существование $M\left(\frac{dh_j(x_1)}{dx_1}\right)$ обеспечивает существование C_1 , и т.д. Завершает доказательство ссылка на решение задачи оптимизации (41) и применение закона больших чисел.

Полученные в теоремах 4 и 5 нотны оценок минимального контраста и метода моментов, асимптотические дисперсии этих оценок (см. теорему 2 и [ [ 12.17 ] ] соответственно) позволяют находить рациональные объемы выборок, строить доверительные интервалы с учетом погрешностей измерений, а также сравнивать оценки по среднему квадрату ошибки (36). Подобное сравнение было проведено для оценок максимального правдоподобия и метода моментов параметров гамма-распределения. Установлено, что классический вывод о преимуществе оценок максимального правдоподобия [ [ 1.7 ] , с.99-100] неверен в случае $\Delta>0$ .

Дальше >>

Авторизоваться

Прикладная статистика

Статистика интервальных данных

Вопросы и ответы