Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3659 / 734 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 9:

Многомерный статистический анализ

Оценивание остаточной дисперсии. В точках t_k , k = 1,2,...,n, имеются исходные значения зависимой переменной x_k и восстановленные значения x*(t_k). Рассмотрим остаточную сумму квадратов

SS=\sum_{i=1}^n(x^*(t_i)-x(t_i))^2=
\sum_{i=1}^n\{(a^*-a)(t_i-t_{cp})+((b^*-b)-e_i)^2\}.

В соответствии с формулами (5) и (6)

SS=\sum_{i=1}^n
\left\{
(t_i-t_{cp})\sum_{j=1}^n c_j e_j+\frac{1}{n}\sum_{j=1}^n e_j-e_i
\right\}^2=
\sum_{i=1}^n
\left\{
\sum_{j=1}^n
\left\{
c_j(t_i-t_{cp})+\frac{1}{n}
\right\}
e_j-e_i
\right\}^2=
\sum_{i=1}^n SS_i.

Найдем математическое ожидание каждого из слагаемых:

M(SS_i)=\sum_{j=1}^n
\left\{
c_j(t_i-t_{cp})+\frac{1}{n}
\right\}^2\sigma^2-2
\left\{
c_i(t_i-t_{cp})+\frac{1}{n}
\right\}\sigma^2+\sigma^2.

Из сделанных ранее предположений вытекает, что при n\rightarrow\infty имеем M(SS_i)\rightarrow\sigma^2, i=1,2,...,n, следовательно, по закону больших чисел статистика SS/n является состоятельной оценкой остаточной дисперсии \sigma^2.

Получением состоятельной оценкой остаточной дисперсии завершается последовательность задач, связанных с рассматриваемым простейшим вариантом метода наименьших квадратов. Не представляет труда выписывание верхней и нижней границ для прогностической функции:

x_{\textit{верх}}(t)=a^*(t-t_{cp})+b^*+\delta(t),\;
x_{\textit{нижн}}(t)=a^*(t-t_{cp})+b^*-\delta(t),
где погрешность \delta(t) имеет вид
\delta(t)=U(p)\sigma^*
\left\{
\frac{1}{n}+\frac{(t-t_{cp})^2}{\sum\limits_{i=1}^n(t-t_{cp})^2}
\right\}^{1/2},\;
\sigma^*=\left(\frac{SS}{n}\right)^{1/2}.

Здесь p - доверительная вероятность, U(p), как и в "Статистический анализ числовых величин" , - квантиль нормального распределения порядка (1+p)/2, т.е.

\Phi(U(p))=\frac{1+p}{2}.

При p= 0,95 (наиболее применяемое значение) имеем U(p) = 1,96. Для других доверительных вероятностей соответствующие значения квантилей можно найти в статистических таблицах (см., например, [ [ 2.1 ] ]).

Сравнение параметрического и непараметрического подходов. Во многих литературных источниках рассматривается параметрическая вероятностная модель метода наименьших квадратов. В ней предполагается, что погрешности имеют нормальное распределение. Это предположение позволяет математически строго получить ряд выводов. Так, распределения статистик вычисляются точно, а не в асимптотике, соответственно вместо квантилей нормального распределения используются квантили распределения Стьюдента, а остаточная сумма квадратов SS делится не на n, а на (n-2). Ясно, что при росте объема данных различия стираются.

Рассмотренный выше непараметрический подход не использует нереалистическое предположение о нормальности погрешностей (см. "Описание данных" ). Платой за это является асимптотический характер результатов. В случае простейшей модели метода наименьших квадратов оба подхода дают практически совпадающие рекомендации. Это не всегда так, не всегда два подхода дают близкие результаты. Напомним, что в задаче обнаружения выбросов методы, опирающиеся на нормальное распределение, нельзя считать обоснованными, и это их свойство было обнаружено с помощью непараметрического подхода (см. "Проверка гипотез" ).

Общие принципы. Кратко сформулируем несколько общих принципов построения, описания и использования методов прикладной статистики. Во-первых, должны быть четко сформулированы исходные предпосылки, т.е. полностью описана используемая вероятностно-статистическая модель. Во-вторых, не следует принимать предпосылки, которые редко выполняются на практике. В-третьих, алгоритмы расчетов должны быть корректны с точки зрения математико-статистической теории. В-четвертых, алгоритмы должны давать полезные для практики выводы.

Применительно к задаче восстановления зависимостей это означает, что целесообразно применять непараметрический подход, что и сделано выше. Однако предположение нормальности, хотя и очень сильно сужает возможности применения, с чисто математической точки зрения позволяет продвинуться дальше. Поэтому для первоначального изучения ситуации, так сказать, "в лабораторных условиях", нормальная модель может оказаться полезной.

Пример оценивания по методу наименьших квадратов. Пусть даны n = 6 пар чисел (t_k , x_k), k = 1,2,...,6, представленных во втором и третьем столбцах табл.9.2. В соответствии с формулами (2) и (4) для вычисления оценок метода наименьших квадратов достаточно найти суммы выражений, представленных во втором, третьем, четвертом и пятом столбцах табл.9.2.

Таблица 9.2. Расчет по методу наименьших квадратов при восстановлении линейной функции одной переменной
i t_i x_i t_i^2 t_i x_i a^* t_i \widehat{x}_i x_i-\widehat{x}_i (x_i-\widehat{x}_i)^2
1 1 12 1 12 3,14 12,17 -0,17 0,03
2 3 20 9 60 9,42 18,45 1,55 2,40
3 4 20 16 80 12,56 21,59 -1,59 2,53
4 7 32 49 224 21,98 31,01 0,99 0,98
5 9 35 81 315 28,26 37,29 -2,29 5,24
6 10 42 100 420 31,40 40,43 1,57 2,46
\Sigma 34 161 256 1111 0,06 13,64
\frac{\Sigma}{n} 5,67 26,83 42,67 185,17

В соответствии с формулой (2) b^* =26,83, а согласно формуле (4)

a^*=\frac{1111-\frac{1}{6}161\times 34}{256-\frac{1}{6}(34)^2}=
\frac{1111-912,33}{256-192,67}=\frac{198,67}{63,33}=3,14.

Следовательно, прогностическая формула имеет вид

\begin{aligned}
&x^*(t)=3,14(t-5,67)+26,83=3,14t-3,14\times 5,67+26,83=\\
&=3,14t-17,80+26,83=3,14t+9,03.
\end{aligned}

Следующий этап анализа данных - оценка точности приближения функции методом наименьших квадратов. Сначала рассматриваются так называемые восстановленные значения

\widehat{x}_i=x^*(t_i),\; i=1,2,...,n.

Это те значения, которые полученная в результате расчетов прогностическая функция принимает в тех точках, в которых известны истинные значения зависимой переменной x_i.

Вполне естественно сравнить восстановленные и истинные значения. Это и сделано в шестом - восьмом столбцах табл.9.2. Для простоты расчетов в шестом столбце представлены произведения a^*(t_i), седьмой отличается от шестого добавлением константы 9,03 и содержит восстановленные значения. Восьмой столбец - это разность третьего и седьмого.

Непосредственный анализ восьмого столбца табл.9.2 показывает, что содержащиеся в нем числа сравнительно невелики по величине по сравнению с третьим столбцом (на порядок меньше по величине). Кроме того, знаки "+" и "-" чередуются. Эти два признака свидетельствуют о правильности расчетов. При использовании метода наименьших квадратов знаки не всегда чередуются. Однако если сначала идут только плюсы, а потом только минусы (или наоборот, сначала только минусы, а потом только плюсы), то это верный показатель того, что в вычислениях допущена ошибка.

Верно следующее утверждение.

Теорема.

\sum_{i=1}^n(x_i-\widehat{x}_i)=0.

Доказательство этой теоремы оставляем читателю в качестве упражнения.

Однако сумма по восьмому столбцу дает 0,06, а не 0. Незначительное отличие от 0 связано с ошибками округления при вычислениях. Близость суммы значений зависимой переменной и суммы восстановленных значений - практический критерий правильности расчетов.

В последнем девятом столбце табл.9.2 приведены квадраты значений из восьмого столбца. Их сумма - это остаточная сумма квадратов SS = 13,64. В соответствии со сказанным выше оценками дисперсии погрешностей и их среднего квадратического отклонения являются

(\sigma^2)^*=\frac{SS}{n}=\frac{13,64}{6}=2,27;\quad 
\sigma^*=\sqrt{\frac{SS}{n}}=\sqrt{\frac{13,64}{6}}=1,51.

Рассмотрим распределения оценок параметров. Оценка b^* имеет асимптотически нормальное распределение с математическим ожиданием b и дисперсией, которая оценивается как 2,27/6=0,38 (здесь считаем, что 6 - "достаточно большое" число, что, конечно, можно оспаривать). Оценкой среднего квадратического отклонения является 0,615. Следовательно, при доверительной вероятности 0,95 доверительный интервал для параметра b имеет вид (26,83 - 1,96\cdot 0,615; 26,83 + 1,96\cdot 0,615) = (25,625; 28,035).

В формулах для дисперсий участвует величина

\sum_{i=1}^n (t_i-t_{cp})^2=
\sum_{i=1}^n (t_i^2-2t_i t_{cp}+t_{cp}^2)=
\sum_{i=1}^n t_i^2 -2t_{cp}\sum_{i=1}^n t_i+nt_{cp}^2=
\sum_{i=1}^n t_i^2 -nt_{cp}^2.

Подставив численные значения, получаем, что

\sum_{i=1}^n t_i^2-nt_{cp}^2=256-6(5,67)^2=63,1.

Дисперсия для оценки a^* коэффициента при линейном члене прогностической функции оценивается как 2,27/63,1=0,036, а среднее квадратическое отклонение - как 0,19. Следовательно, при доверительной вероятности 0,95 доверительный интервал для параметра a имеет вид (3,14 - 1,96\cdot 0,19; 3,14 + 1,96\cdot 0,19) = (2,77; 3,51).

Прогностическая формула с учетом погрешности имеет вид (при доверительной вероятности 0,95)

x^*(t)=3,14t+9,03\pm 1,96\times 1,51\sqrt{\frac16 + \frac{(t-5,67)^2}{63,1}}.

В этой записи сохранено происхождение различных составляющих. Упростим:

x^*(t)=3,14t+9,03\pm 2,96 \sqrt{\frac16 + \frac{(t-5,67)^2}{63,1}}.

Например, при t = 12 эта формула дает

x^*(12)=46,71\pm 2,65.

Следовательно, нижняя доверительная граница - это 44,06, а верхняя доверительная граница - это 49,36.

Насколько далеко можно прогнозировать? Обычный ответ таков - до тех пор, пока сохраняется тот стабильный комплекс условий, при котором справедлива рассматриваемая зависимость. Изобретатель метода наименьших квадратов Карл Гаусс исходил из задачи восстановления орбиты астероида (малой планеты) Церера. Движение подобных небесных тел может быть рассчитано на сотни лет. А вот параметры комет (например, срок возвращения) не поддаются столь точному расчету, поскольку за время пребывания в окрестности Солнца сильно меняется масса кометы. В социально-экономической области горизонты надежного прогнозирования еще менее определены. В частности, они сильно зависят от решений центральной власти.

Чтобы выявить роль погрешностей в прогностической формуле, рассмотрим формальный предельный переход t\rightarrow\infty. Тогда слагаемые 9,03; 1/6; 5,67 становятся бесконечно малыми, и

x^*(t)\approx 3,14t\pm\frac{2,96}{\sqrt{63,1}}t=(3,14\pm 0,37)t.

Таким образом, погрешности составляют около

\frac{100\times 0,37}{3,14}\%=11,8\%
от тренда (математического ожидания) прогностической функции. В социально-экономических исследованиях подобные погрешности считаются вполне приемлемыми.