Опубликован: 09.11.2009 | Уровень: для всех | Доступ: платный
Лекция 12:

Статистика интервальных данных

Необходимость учета погрешностей измерений. Положим

v=f(x_1,x_2,...,x_n)=\frac{1}{n}\sum_{1\le i\le n}\ln\left(\frac{\overline{x}}{x_i}\right).
Из свойств функции H(\bullet) следует [ [ 12.12 ] , с.14], что при малых v
a^*\approx\frac{1}{2v}. ( 13)

В силу состоятельности оценки максимального правдоподобия a^* из формулы (13) следует, что v\rightarrow 0 по вероятности при a\rightarrow\infty.

Согласно модели статистики интервальных данных результатами наблюдений являются не x_i, а y_i, вместо v по реальным данным рассчитывают

w=f(y_1,y_2,...,y_n)=\frac{1}{n}\sum_{1\le i\le n}\ln\left(\frac{\overline{y}}{y_i}\right).

Имеем

w-v=\ln\left(\frac{\overline{y}}{\overline{x}}\right)
-\frac{1}{n}\sum_{1\le i\le n}\ln\left(1+\frac{\varepsilon_i}{x_i}\right). ( 14)

В силу закона больших чисел при достаточно малой погрешности \varepsilon, обеспечивающей возможность приближения \ln(1+\alpha)\approx\alpha для слагаемых в формуле (14), или, что эквивалентно, при достаточно малых предельной абсолютной погрешности \Delta в формуле (1) или достаточно малой предельной относительной погрешности \delta имеем при n\rightarrow\infty

w-v\rightarrow\frac{M(\varepsilon_i)}{M(x_i)}-M\left(\frac{\varepsilon_i}{x_i}\right)=c
по вероятности (в предположении, что все погрешности одинаково распределены). Таким образом, наличие погрешностей вносит сдвиг, вообще говоря, не исчезающий при росте объема выборки. Следовательно, если c\ne 0, то оценка максимального правдоподобия не является состоятельной. Имеем
a^*(y)-a^*\approx-\frac{c}{2v^2},
где величина a^*(y) определена по формуле (12) с заменой x_i на y_i, i=1,2,...,n. Из формулы (13) следует [ [ 12.12 ] ], что
a^*(y)-a\approx-2\left(a^*\right)^2 c, ( 15)
т.е. влияние погрешностей измерений увеличивается по мере роста a.

Из формул для v и w следует, что с точностью до бесконечно малых более высокого порядка

w-v\approx\sum_{1\le i\le n}\frac{\partial f}{\partial x_i}\varepsilon_i=
\frac{1}{n}\sum_{1\le i\le n}\ln\left(\frac{1}{\overline{x}}-\frac{1}{x_i}\right)\varepsilon_i. ( 16)

С целью нахождения асимптотического распределения w выделим, используя формулу (16) и формулу для v, главные члены в соответствующих слагаемых

w=\ln M(x_1)+\frac{1}{n}\sum_{1\le i\le n}
\left\{
\frac{x_i=M(x_1)}{M(x_i)}-\ln x_i+\left(\frac{1}{M(x_1)}-\frac{1}{x_i}\right)\varepsilon_i
\right\}
+O_p\left(\frac{1}{n}\right). ( 17)

Таким образом, величина w представлена в виде суммы независимых одинаково распределенных случайных величин (с точностью до зависящего от случая остаточного члена порядка 1/n ). В каждом слагаемом выделяются две части - одна, соответствующая v, и вторая, в которую входят \varepsilon_i. На основе представления (17) можно показать, что при n\rightarrow\infty, \varepsilon\rightarrow 0 распределения случайных величин v и w асимптотически нормальны, причем M(w)\approx M(v)+c, D(w)\approx D(v).

Из асимптотического совпадения дисперсий v и w, вида параметров асимптотического распределения (при a\rightarrow\infty ) оценки максимального правдоподобия a^* и формулы (15) вытекает одно из основных соотношений статистики интервальных данных о квадрате средней ошибки

M\left(a^*(y)-a\right)^2\approx 4a^4c^2+\frac{a(2a-1)}{n}. ( 18)

Соотношение (18) уточняет утверждение о несостоятельности a^*. Из него следует также, что не имеет смысла безгранично увеличивать объем выборки n с целью повышения точности оценивания параметра a, поскольку при этом уменьшается только второе слагаемое в (18), а первое остается постоянным.

В соответствии с общим подходом статистики интервальных данных в стандарте [ [ 12.12 ] ] предлагается определять рациональный объем выборки nrat из условия "уравнивания погрешностей" (это условие было впервые предложено в монографии [ [ 1.15 ] ]) различных видов в формуле (18), т.е. из условия

4a^4c^2=\frac{a(2a-1)}{n_{rat}}.

Упрощая это уравнение в предположении a\rightarrow\infty, получаем, что

n_{rat}=frac{1}{2a^2c^2}.

Согласно сказанному выше, целесообразно использовать лишь выборки с объемами n\le n_{rat}. Превышение рационального объема выборки n_{rat} не дает существенного повышения точности оценивания.

Применение методов теории устойчивости. Найдем асимптотическую нотну. Как следует из вида главного линейного члена в формуле (17), решение оптимизационной задачи

w-v\rightarrow\max,|\varepsilon_i|\le\Delta,
соответствующей ограничениям на абсолютные погрешности, имеет вид
\varepsilon_i=\left\{
\begin{aligned}
&\Delta,\frac{1}{\overline{x}}-\frac{1}{x_i}\ge 0, \\
&-\Delta,\frac{1}{\overline{x}}-\frac{1}{x_i}< 0
\end{aligned}
\right. .

Однако при этом пары (x_i,\varepsilon_i) не образуют простую случайную выборку, так как в выражения для \varepsilon_i входит \overline{x}. Однако при n\rightarrow\infty можно заменить \overline{x} на М(х_1). Тогда получаем, что

w-v\approx A\Delta
при a>1, где
A=M\left|\frac{1}{M(x_1)}-frac{1}{x_1}\right|=\int\limits_0^{\infty}
\left|\frac{1}{ab}-\frac{1}{x}\right|f(x;a,b)dx.

Таким образом, с точностью до бесконечно малых более высокого порядка нотна имеет вид

N_{a^*}(y)=2(a^*)^2c,\quad c=A\Delta.

Применим полученные результаты к построению доверительных интервалов. В постановке классической математической статистики (т.е. при \varepsilon=0 ) асимптотический (при a\rightarrow\infty ) доверительный интервал для параметра формы a, соответствующий доверительной вероятности , имеет вид [ [ 12.12 ] ]:

\left[
a^*-u\left(\frac{1+\gamma}{2}\right)\sigma^*(a^*);
a^*+u\left(\frac{1+\gamma}{2}\right)\sigma^*(a^*)
\right],
где u\left(\frac{1+\gamma}{2} - квантиль порядка \frac{1+\gamma}{2} стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1,
[\sigma^*(x^*)]^2=
\frac{a}{n(a^*\psi'(x^*)-1)},
\psi(a)=\left.\frac{d\Gamma(a)}{da}right/\Gamma(a).

В постановке статистики интервальных данных (т.е. при \varepsilon\ne 0 ) следует рассматривать доверительный интервал

\left[
a^*-2(a^*)^2|c|-u\left(\frac{1+\gamma}{2}\right)\sigma^*(a^*);
a^*+2(a^*)^2|c|-u\left(\frac{1+\gamma}{2}\right)\sigma^*(a^*)
\right],
где
c=\frac{M(\varepsilon_i)}{M(x_i)}-M\left(\frac{\varepsilon_i}{x_i}\right)
в вероятностной постановке (пары (x_i,\varepsilon_i) образуют простую случайную выборку) и c=A\Delta в оптимизационной постановке. Как в вероятностной, так и в оптимизационной постановках длина доверительного интервала не стремится к 0 при n\rightarrow\infty.

Если ограничения наложены на предельную относительную погрешность, задана величина \delta, то значение с можно найти с помощью следующих правил приближенных вычислений [ [ 12.4 ] , с.142].

(I)Относительная погрешность суммы заключена между наибольшей и наименьшей из относительных погрешностей слагаемых.

(II) Относительная погрешность произведения и частного равна сумме относительных погрешностей сомножителей или, соответственно, делимого и делителя.

Можно показать, что в рамках статистики интервальных данных с ограничениями на относительную погрешность правила (I) и (II) являются строгими утверждениями при \delta\rightarrow 0.

Обозначим относительную погрешность некоторой величины t через \text{ОП}(t), абсолютную погрешность - через \text{АП}(t).

Из правила (I) следует, что \text{ОП}(\overline{x})=\delta, а из правила (II) - что

\text{ОП}\left(\frac{\overline{x}}{x_i}\right)=2\delta.

Поскольку рассмотрения ведутся при a\rightarrow\infty то в силу неравенства Чебышева

\frac{\overline{x}}{x_i}\rightarrow 1 ( 19)
по вероятности при a\rightarrow\infty поскольку и числитель, и знаменатель в (19) с близкой к 1 вероятностью лежат в промежутке [ab-db\sqrt{a};ab+db\sqrt{a}], где константа d может быть определена с помощью упомянутого неравенства Чебышева.

Поскольку при справедливости (19) с точностью до бесконечно малых более высокого порядка

\ln\left(\frac{\overline{x}}{x_i}\right)\approx\frac{\overline{x}}{x_i}-1,
то с помощью трех последних соотношений имеем
\textit{ОП}\left(\frac{\overline{x}}{x_i}\right)=
\textit{АП}\left(\frac{\overline{x}}{x_i}\right)=
\textit{АП}\left(\ln\left(\frac{\overline{x}}{x_i}\right)\right)
=2\delta. ( 20)

Применим еще одно правило приближенных вычислений [ [ 12.4 ] , с.142].

(III) Предельная абсолютная погрешность суммы равна сумме предельных абсолютных погрешностей слагаемых.

Из (20) и правила (III) следует, что \textit{АП}(v)=2\delta.

Из (15) и (21) вытекает [ [ 12.12 ] , с.44, форм. (18)], что \textit{АП}(a^*)=4a^2\delta, откуда в соответствии с ранее полученной формулой для рационального объема выборки с заменой c=2\delta получаем, что

n_{rat}=\frac{1}{8a^2\delta^2}.

В частности, при a=5,00, \delta=0,01 получаем n_{rat}=50, т.е. в ситуации, в которой были получены данные о наработке резцов до предельного состояния [ [ 12.12 ] , с.29], проводить более 50 наблюдений нерационально.

В соответствии с ранее проведенными рассмотрениями асимптотический доверительный интервал для a, соответствующий доверительной вероятности \gamma=0,95, имеет вид

\left[
a^*-4(a^*)^2\delta-1,96\sqrt{\frac{a^*(2a^*-1)}{n}};
a^*+4(a^*)^2\delta-1,96\sqrt{\frac{a^*(2a^*-1)}{n}}
\right].

В частности, при a^*=5,00, \delta=0,01, n=50 имеем асимптотический доверительный интервал [2,12; 7,86] вместо [3,14; 6,86] при \delta=0.

При больших a в силу соображений, приведенных при выводе формулы (19), можно связать между собой относительную и абсолютную погрешности результатов наблюдений x_i:

\delta=\frac{\Delta}{M(x_1)}=\frac{\Delta}{ab}. ( 21)

Следовательно, при больших a имеем

c=2\delta=A\Delta, A=\frac{2\delta}{\Delta}=\frac{2}{ab}.

Таким образом, проведенные рассуждения дали возможность вычислить асимптотику интеграла, задающего величину A.

Сравнение методов оценивания. Изучим влияние погрешностей измерений (с ограничениями на абсолютную погрешность) на оценку \widehat{a} метода моментов. Имеем \textit{АП}(\overline{x})=\Delta, \; \textit{АП}((\overline{x})^2)\approx 2\overline{x}\Delta\approx 2ab\Delta.

Погрешность s^2 зависит от способа вычисления s^2. Если используется формула

s^2=\frac{1}{n-1}\sum_{1\le i\le n}(x_i-\overline{x})^2, ( 22)
то необходимо использовать соотношения
\textit{АП}(x_i-\overline{x})^2=2\Delta,
\textit{АП}\left[(x_i-\overline{x})^2\right]\approx 2|x_i-\overline{x}|\Delta.

По сравнению с анализом влияния погрешностей на оценку а^* здесь возникает новый момент - необходимость учета погрешностей в случайной составляющей отклонения оценки \widehat{a} от оцениваемого параметра, в то время как при рассмотрении оценки максимального правдоподобия погрешности давали лишь смещение. Примем в соответствии с неравенством Чебышева

|x_i-\overline{x}|\approx\sqrt{D(x_1)}, ( 23)
тогда
\textit{АП}[(x_i-\overline{x})^2]\approx 2b\sqrt{a}\Delta,\;
\textit{АП}(s^2)\approx 2b\sqrt{a}\Delta.

Если вычислять s^2 по формуле

s^2=\frac{1}{n-1}\sum_{1\le i\le n} x_i^2-\frac{n}{n-1}(\overline{x})^2, ( 24)
то аналогичные вычисления дают, что
\textit{АП}(s^2)\approx 4ab\Delta,
т.е. погрешность при больших а существенно больше. Хотя правые части формул (22) и (24) тождественно равны, погрешности вычислений по этим формулам весьма отличаются. Связано это с тем, что в формуле (24) последняя операция - нахождение разности двух больших чисел, примерно равных по величине (для выборки из гамма-распределения при большом значении параметра формы).

Из полученных результатов следует, что

\textit{АП}(\widehat{a})=\textit{АП}\left(\frac{(\overline{x})^2}{s^2}\right)\approx\frac{2\Delta}{b}(1+sqrt{a}).
При выводе этой формулы использована линеаризация влияния погрешностей (выделение главного линейного члена). Используя связь (21) между абсолютной и относительной погрешностями, можно записать
\textit{АП}(\widehat{a})\approx 2a(1+\sqrt{a})\delta.

Эта формула отличается от приведенной в [ [ 12.12 ] , с.44, форм. (19)]

\textit{АП}(\widehat{a})\approx 2a(1+3\sqrt{a})\delta,
поскольку в [ [ 12.12 ] ] вместо (23) использовалась оценка
|x_i-\overline{x}|<3\sqrt{D(x_1)}.

Используя соотношение (23), мы характеризуем влияние погрешностей "в среднем".

Доверительный интервал, соответствующий доверительной вероятности 0,95, имеет вид \left[ \widehat{a}-2\widehat{a}(1+\sqrt{\widehat{a}})\delta-1,96\sqrt{\frac{2\widehat{a}(\widehat{a}+1)}{n}}; \widehat{a}+2\widehat{a}(1+\sqrt{\widehat{a}})\delta+1,96\sqrt{\frac{2\widehat{a}(\widehat{a}+1)}{n}} \right].

Если \widehat{a} = 5,00, \delta = 0,01, n = 50, то получаем доверительный интервал [2,54; 7,46] вместо [2,86; 7,14] при \delta=0. Хотя при \delta=0 доверительный интервал для a при использовании оценки метода моментов \widehat{a} шире, чем при использовании оценки максимального правдоподобия а^*, при \delta = 0,01 результат сравнения длин интервалов противоположен.

Необходимо выбрать способ сравнения двух методов оценивания параметра a, поскольку в длины доверительных интервалов входят две составляющие - зависящая от доверительной вероятности и не зависящая от нее. Выберем \delta = 0,68, т.е. u\left(\frac{1+\gamma}{2}\right). Тогда оценке максимального правдоподобия a^* соответствует полудлина доверительного интервала

v(a^*)=4a^2\delta+\sqrt{\frac{a(2a-1)}{n}}, ( 25)
а оценке \widehat{a} метода моментов соответствует полудлина доверительного интервала
v(\widehat{a})=2a(1+\sqrt{a})\delta+\sqrt{\frac{2a(a+1)}{n}}. ( 26)

Ясно, что больших a или больших n справедливо неравенство v(a^*)>v(\widehat{a}), т.е. метод моментов лучше метода максимального правдоподобия, вопреки классическим результатам Р.Фишера при \delta=0 [ [ 1.7 ] ,с.99].

Из (25) и (26) элементарными преобразованиями получаем следующее правило принятия решений. Если

\delta\sqrt{n}\ge\frac{\sqrt{2a(a+1)}-\sqrt{2a(a-1)}}{4a^2-2a(1+\sqrt{a})}=B(a),
то v(a^*)\ge v(\widehat{a}) и следует использовать \widehat{a} ; а если \delta\sqrt{n}<B(a), то v(a^*)<v(\widehat{a}) и надо применять а^*. Для выбора метода оценивания при обработке реальных данных целесообразно использовать B(\widehat{a}) (см. раздел 5 в ГОСТ 11.011-83 [ [ 12.12 ] , с.10-11]).

Пример анализа реальных данных опубликован в [ [ 12.12 ] ].

На основе рассмотрения проблем оценивания параметров гамма-распределения можно сделать некоторые общие выводы. Если в классической теории математической статистики:

а) существуют состоятельные оценки a_n параметра a,

\lim_{n\rightarrow\infty}M(a_n-a)^2=0;

б) для повышения точности оценивания объем выборки целесообразно безгранично увеличивать;

в) оценки максимального правдоподобия лучше оценок метода моментов,

то в статистике интервальных данных, учитывающей погрешности измерений, соответственно:

а) не существует состоятельных оценок: для любой оценки a_n существует константа c такая, что

\lim_{n\rightarrow\infty}M(a_n-a)^2\ge c>0;

б) не имеет смысла рассматривать объемы выборок, большие "рационального объема выборки" n_{rat} ;

в) оценки метода моментов в обширной области параметров (a,n,\delta) лучше оценок максимального правдоподобия, в частности, при a\rightarrow\infty и при n\rightarrow\infty.

Ясно, что приведенные выше результаты справедливы не только для рассмотренной задачи оценивания параметров гамма-распределения, но и для многих других постановок прикладной математической статистики.

Анастасия Маркова
Анастасия Маркова

Здравствуйте!

4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1.

Сегодня вижу, что я вне курса! Почему так произошло?

Anton Iskrin
Anton Iskrin
Россия, Москва, МИСиС, 2006
Дмитрий Степаненко
Дмитрий Степаненко
Россия