Не могу найти требования по оформлению выпускной контрольной работы по курсу профессиональной переподготовки "Менеджмент предприятия" |
Многомерный статистический анализ
Оценивание линейной прогностической функции
Начнем с задачи точечного и доверительного оценивания линейной прогностической функции одной переменной.
Предполагается, что переменная x линейно зависит от переменной , т.е.
![x(t) = a(t - t_{ср}) + b](/sites/default/files/tex_cache/d2ec7b4c1072561db8ace99d4cca597f.png)
при некоторых значениях параметров и
(величина
описана ниже). Это - теоретическая модель. А практически известны исходные данные - набор
пар чисел
, где
-- значения независимой переменной (например, времени), а
- значения зависимой переменной (например, индекса инфляции, курса доллара США, объема месячного производства или размера дневной выручки торговой точки). Предполагается, что переменные связаны зависимостью
![x_k = a (t_k - t_{ср})+ b + e_k , k = 1,2,\dots ,n,](/sites/default/files/tex_cache/d3ec9e6a43219838b0a47b63effbba6e.png)
где и
- параметры, неизвестные статистику и подлежащие оцениванию, а
- погрешности, искажающие зависимость. Среднее арифметическое моментов времени
![t_{ср} = (t_1 + t_2 +\dots+t_n ) / n](/sites/default/files/tex_cache/712e21f4a2720f8293036209779a6c9e.png)
введено в модель для облегчения дальнейших выкладок.
Обычно оценивают параметры и
линейной зависимости методом наименьших квадратов. Затем восстановленную зависимость используют для точечного и интервального прогнозирования.
Как известно, метод наименьших квадратов был разработан великим немецким математиком К. Гауссом в 1794 г. Согласно этому методу для расчета наилучшей функции, приближающей линейным образом зависимость от
, следует рассмотреть функцию двух переменных
![f(a,b)= \sum_{i=1}^n(x_i-a(t_i-t_{cp})-b)^2](/sites/default/files/tex_cache/77c0952cab1211dd4ee18924d8b29fef.png)
Оценки метода наименьших квадратов - это такие значения и
, при которых функция
достигает минимума по всем значениям аргументов. Чтобы найти эти оценки, надо вычислить частные производные от функции
по аргументам
и
, приравнять
![\frac{db(a,b)}{da}= \sum_{i=1}^n2(x_i-a(t_i-t_{cp})-b)(-(t_i-t_{cp}))](/sites/default/files/tex_cache/e6739b4a18245f56a08d995e9ef8b141.png)
их 0, затем из полученных уравнений найти оценки: Имеем:
![\frac{db(a,b)}{da}= \sum_{i=1}^n2(x_i-a(t_i-t_{cp})-b)(-1)](/sites/default/files/tex_cache/bafde4bd7f697288f599bcf5538edaae.png)
Преобразуем правые части полученных соотношений. Вынесем за знак суммы общие множители 2 и (-1). Затем рассмотрим слагаемые. Раскроем скобки в первом выражении, получим, что каждое слагаемое разбивается на три. Во втором выражении также каждое слагаемое есть сумма трех. Значит, каждая из сумм разбивается на три суммы. Имеем:
![\frac{df(a,b)}{da}=(-2)(\sum_{i=1}^n2(x_i-a \su,_{i=1}^n(t_i-t_{cp})^2-b \sum_{i=1}^n(t_i-t_{cp}))\\
\frac{df(a,b)}{da}=(-2)(\sum_{i=1}^nX_i-a \sum_{i=1}^n(t_i-t_{cp})-bn)](/sites/default/files/tex_cache/6860fc64bb6773688edd3b07ee7db5cc.png)
Приравняем частные производные 0. Тогда в полученных уравнениях можно сократить множитель (-2). Поскольку
![]() |
( 1) |
уравнения приобретают вид
![\sum_{i=1}^nx_i(t_i-t_{cp})-a \sum_{i=1}^n(t_i-t_{cp})^2=0\\
\sum_{i=1}^nx_i-bn=0](/sites/default/files/tex_cache/c31707efdcfc5bb6711985a31337a9ca.png)
Следовательно, оценки метода наименьших квадратов имеют вид
![]() |
( 2) |
В силу соотношения (1) оценку можно записать в более симметричном
![]() |
( 3) |
виде:
Эту оценку нетрудно преобразовать и к виду
![]() |
( 4) |
Следовательно, восстановленная функция, с помощью которой можно прогнозировать и интерполировать, имеет вид
![x*(t) = a*(t - t_{ср})+ b*.](/sites/default/files/tex_cache/930bfd706da166dcaae7757d2b823d32.png)
Обратим внимание на то, что использование в последней формуле ничуть не ограничивает ее общность. Сравним с моделью вида
![x_k = c t_k+ d + e_k , k = 1,2,\dots,n.](/sites/default/files/tex_cache/411fe6610ba24aab626dc1ad031866bb.png)
Ясно, что
![c=a, d=b-at_{cp}](/sites/default/files/tex_cache/33d0b6b5e2529f239a572a279bf147eb.png)
Аналогичным образом связаны оценки параметров:
![c*=a*, d*=b*-a*t_{cp}](/sites/default/files/tex_cache/44505ae5296df96144063252dabc6c02.png)
Для получения оценок параметров и прогностической формулы нет необходимости обращаться к какой-либо вероятностной модели. Однако для того, чтобы изучать погрешности оценок параметров и восстановленной функции, т.е. строить доверительные интервалы для и
, подобная модель необходима.
Непараметрическая вероятностная модель. Пусть значения независимой переменной детерминированы, а погрешности
, - независимые одинаково распределенные случайные величины с нулевым математическим ожиданием и дисперсией
неизвестной статистику.
В дальнейшем неоднократно будем использовать Центральную Предельную Теорему (ЦПТ) теории вероятностей для величин (с весами), поэтому для выполнения ее условий необходимо предположить, например, что погрешности
, финитны или имеют конечный третий абсолютный момент. Однако заострять внимание на этих внутриматематических "условиях регулярности" нет необходимости.
Асимптотические распределения оценок параметров. Из формулы (2) следует, что
![]() |
( 5) |
Согласно ЦПТ оценка имеет асимптотически нормальное распределение с математическим ожиданием
и дисперсией
оценка которой приводится ниже.
Из формул (2) и (5) вытекает, что
![x_i-x_{cp}=a(t_i-t_{cp})+b+e_i-b- \frac{1}{n} \sum_{i=1}^ne_i,\\
(x_i-x_{cp})(t_i-t_{cp})=a(t_i-t_{cp})^2+e_i(t_i-t_{cp})- \frac{(t_i-t_{cp})}{n} \sum_{i=1}^n e_i](/sites/default/files/tex_cache/abde8ec619c6b9b9ba44a8d841238f52.png)
Последнее слагаемое во втором соотношении при суммировании по i обращается в 0, поэтому из формул (2-4) следует, что
![]() |
( 6) |
Формула (6) показывает, что оценка является асимптотически нормальной с математическим ожиданием
и дисперсией
![D(a*)=\sum_{i=1}^nc_i^2D(e_i)=\frac{\sigma^2}{\sum_{i=1}^n(t_i-t_{cp})^2}](/sites/default/files/tex_cache/8c6112ef9b94573757232e38835cacee.png)
Отметим, что многомерная нормальность имеет быть, когда каждое слагаемое в формуле (6) мало сравнительно со всей суммой, т.е.
![\lim_{n \to \infty} \max|t_i-t_{cp}|/ \{\sum_{i=1}^n(t_i-t_{cp})^2\}^{1/2}=0](/sites/default/files/tex_cache/4e4cd340d8a8b247a42ab2120d9fd493.png)
Из формул (5) и (6) и исходных предположений о погрешностях вытекает также несмещенность оценок параметров.
Несмещенность и асимптотическая нормальность оценок метода наименьших квадратов позволяют легко указывать для них асимптотические доверительные границы (аналогично границам в предыдущей лекции) и проверять статистические гипотезы, например, о равенстве определенным значениям, прежде всего 0. Предоставляем читателю возможность выписать формулы для расчета доверительных границ и сформулировать правила проверки упомянутых гипотез.
Асимптотическое распределение прогностической функции. Из формул (5) и (6) следует, что
![M(x*(t))=M\{a*(t-t_{cp})+b*\}=M(a*)(t-t_{cp})+M(b*)=a(t-t_{cp})+b=x(t)](/sites/default/files/tex_cache/6b022f8c560713bfdf9023dcab147fb3.png)
т.е. рассматриваемая оценка прогностической функции является несмещенной. Поэтому
![D(x*(t))=D(a*)(t-t_{cp})^2+2M\{(a*-a)(b*-b)(t-t_{cp})\}+D(b*)](/sites/default/files/tex_cache/7d8b2550606f1795a0b1774cf623f3fe.png)
При этом, поскольку погрешности независимы в совокупности и , то
![M\{(a*-a)(b*-b)(t-t_{cp})\}=\frac{1}{n} \sum+{i=1}^nc_i(t-t_{cp})M(e_i^2)=\frac{1}{n}(t-t_{cp}) \sigma^2 \sum_{i=1}^nc_i=0](/sites/default/files/tex_cache/45680536f7fb7b0cc4ce77d560a34930.png)
Таким образом,
![D(x*(t))=\sigma^2 \{\frac{1}{n}+\frac{(t-t_{cp})^2}{\sum_{i=1}^n(t_i-t_{cp})^2}\}](/sites/default/files/tex_cache/f788b9682ab74962c4c68dccbb08cc25.png)
Итак, оценка является несмещенной и асимптотически нормальной. Для ее практического использования необходимо уметь оценивать остаточную дисперсию
Оценивание остаточной дисперсии. В точках , имеются исходные значения зависимой переменной
и восстановленные значения
. Рассмотрим остаточную сумму квадратов
![SS=\sum_{i=1}^n(x*(t_i)-x_i)^2=\sum_{i=1}^n \{(a*-a)(t_i-t_{nd})+(b*-b)-e_i)^2\}](/sites/default/files/tex_cache/6a8e04b230c18d665d95454f549e1acf.png)
В соответствии с формулами (5) и (6)
![SS=\sum_{i=1}^n \{(t_i-t_{cp}) \sum_{j=1}^n c_je_j+\frac{1}{n}\sum_{j=1}^n e_j-e_i\}^2=\\
=\sum_{i=1}^n \{\sum_{j=1}^n \{c_j(t_i-t_{cp})+\frac{1}{n}\}e_j-e_i\}^2=\sum_{i=1}^nSS_i](/sites/default/files/tex_cache/2cf36c2d90b8f6685063e408284a78b6.png)
Найдем математическое ожидание каждого из слагаемых:
![M(SS_i)= \sum_{j=1}^n\{c_j(t_i-t_{cp})+\frac 1n\}^2 \sigma^2-2\{c_i(t_i-t_{cp})+\frac 1n) \sigma^2+\sigma^2](/sites/default/files/tex_cache/1f56d4a568008af3a2133b640645cd71.png)
Из сделанных ранее предположений вытекает, что при имеем
следовательно, по закону больших чисел статистика
является состоятельной оценкой остаточной дисперсии
.
Получением состоятельной оценки остаточной дисперсии завершается последовательность задач, связанных с рассматриваемым простейшим вариантом метода наименьших квадратов. Не представляет труда выписывание верхней и нижней границ для прогностической функции:
![x_{верх}(t)=a*(t-t_{cp})+b*+\delta(t),\
X_{нижн}(t)=a*(t-t_{cp}+b*-\delta(t)](/sites/default/files/tex_cache/6ab7133557e0911378d1a30b8bf0bdca.png)
![\delta(t)=U(p) \sigma*\{ \frac 1n + \frac{(t-t_{cp}^2}{\sum_{i=1}^n (t_i-t_{cp})^2}\}^{1/2},\\
\sigma^2=\left(\frac{SS}{n} \right)^{1/2}](/sites/default/files/tex_cache/efe70fddcfbed65d8ca6b4a44359909c.png)
Здесь - доверительная вероятность,
, как и в
"Статистический анализ числовых величин (непараметрическая статистика)"
- квантиль нормального распределения порядка
, т.е.
![Ф(U(p))=\frac{1+p}{2}](/sites/default/files/tex_cache/65f672c40fdd09f1eeec4b441c0ce7a4.png)
При (наиболее применяемое значение) имеем
. Для других доверительных вероятностей соответствующие значения квантилей можно найти в статистических таблицах (см., например, наилучшее в этой сфере издание [1]).
Сравнение параметрического и непараметрического подходов. Во многих литературных источниках рассматривается параметрическая вероятностная модель метода наименьших квадратов. В ней предполагается, что погрешности имеют нормальное распределение. Это предположение позволяет математически строго получить ряд выводов. Так, распределения статистик вычисляются точно, а не в асимптотике, соответственно вместо квантилей нормального распределения используются квантили распределения Стьюдента, а остаточная сумма квадратов делится не на
, а на
. Ясно, что при росте объема данных различия стираются.
Рассмотренный выше непараметрический подход не использует нереалистическое предположение о нормальности погрешностей (см. начало "Статистический анализ числовых величин (непараметрическая статистика)" ).. Платой за это является асимптотический характер результатов. В случае простейшей модели метода наименьших квадратов оба подхода дают практически совпадающие рекомендации. Это не всегда так, не всегда два подхода бают близкие результаты. Напомним, что в задаче обнаружения выбросов методы, опирающиеся на нормальное распределение, нельзя считать обоснованными, и обнаружено это было с помощью непараметрического подхода (см. "Статистический анализ числовых величин (непараметрическая статистика)" ).
Общие принципы. Кратко сформулируем несколько общих принципов построения, описания и использования эконометрических методов анализа данных. Во-первых, должны быть четко сформулированы исходные предпосылки, т.е. полностью описана используемая вероятностно-статистическая модель. Во-вторых, не следует принимать предпосылки, которые редко выполняются на практике. В-третьих, алгоритмы расчетов должны быть корректны с точки зрения математико-статистической теории. В-четвертых, алгоритмы должны давать полезные для практики выводы.
Применительно к задаче восстановления зависимостей это означает, что целесообразно применять непараметрический подход, что и сделано выше. Однако предположение нормальности, хотя и очень сильно сужает возможности применения, с чисто математической точки зрения позволяет продвинуться дальше. Поэтому для первоначального изучения ситуации, так сказать, "в лабораторных условиях", нормальная модель может оказаться полезной.