Опубликован: 16.12.2009 | Уровень: для всех | Доступ: платный
Лекция 5:

Многомерный статистический анализ

Аннотация: В многомерном статистическом анализе выборка состоит из элементов многомерного пространства. Отсюда и название этого раздела эконометрических методов. Из многих задач многомерного статистического анализа рассмотрим две - восстановления зависимости и классификации.
Ключевые слова: переменная, переменные связи, метода наименьших квадратов, функция, ПО, производные, множитель, математическим ожиданием, нормальное распределение, статистическая гипотеза, остаточная сумма квадратов, статистика, погрешность, доверительная вероятность, Квантиль, значение, вероятностная модель, константы, разность, анализ, доказательство, доверительный интервал, дисперсия, тренд, алгоритм, индекс, линейное уравнение, регрессионный анализ, коэффициенты, производственная функция, свободными членами, таблица, параметр, минимум, многочлен, линейная функция, локальные минимумы, вероятность, регрессионными зависимостями, связь, коэффициент корреляции, приложение, вектор, представление, равенство, гипотеза, сходимость, выражение, ранг, шкала измерений, объект, бинарным отношением, множества, нечеткое множество, метрика, прикладная математика, распознавание, диагностика, сортировка, опыт, классификатор, разбиение, кластеризация, кластер, обучающая выборка, таксономия, кластерный анализ, отношение эквивалентности, статистический анализ, пункт, деление, определенность алгоритма, расстояние, дерево, предметной области, алгоритм k-средних, алгоритм ближайшего соседа, отрезок, устойчивость, дендрограмма, куча, математическая индукция, объединение, статистический критерий, статистические методы, метод статистических испытаний, структура данных, матрица, монотонно убывающей, правило проверки, центр кластера, вычисление, медиана, точность, АРМ, вывод, решающее правило, выборка

Оценивание линейной прогностической функции

Начнем с задачи точечного и доверительного оценивания линейной прогностической функции одной переменной.

Предполагается, что переменная x линейно зависит от переменной t, т.е.

x(t) = a(t - t_{ср}) + b

при некоторых значениях параметров a и b (величина t_{ср} описана ниже). Это - теоретическая модель. А практически известны исходные данные - набор n пар чисел (t_k , x_k), k = 1,2,\dots,n, где t_k -- значения независимой переменной (например, времени), а x_k - значения зависимой переменной (например, индекса инфляции, курса доллара США, объема месячного производства или размера дневной выручки торговой точки). Предполагается, что переменные связаны зависимостью

x_k = a (t_k - t_{ср})+ b + e_k , k = 1,2,\dots ,n,

где a и b - параметры, неизвестные статистику и подлежащие оцениванию, а e_k - погрешности, искажающие зависимость. Среднее арифметическое моментов времени

t_{ср} = (t_1 + t_2 +\dots+t_n ) / n

введено в модель для облегчения дальнейших выкладок.

Обычно оценивают параметры a и b линейной зависимости методом наименьших квадратов. Затем восстановленную зависимость используют для точечного и интервального прогнозирования.

Как известно, метод наименьших квадратов был разработан великим немецким математиком К. Гауссом в 1794 г. Согласно этому методу для расчета наилучшей функции, приближающей линейным образом зависимость x от t, следует рассмотреть функцию двух переменных

f(a,b)= \sum_{i=1}^n(x_i-a(t_i-t_{cp})-b)^2

Оценки метода наименьших квадратов - это такие значения a* и b*, при которых функция f(a,b) достигает минимума по всем значениям аргументов. Чтобы найти эти оценки, надо вычислить частные производные от функции f(a,b) по аргументам a и b, приравнять

\frac{db(a,b)}{da}= \sum_{i=1}^n2(x_i-a(t_i-t_{cp})-b)(-(t_i-t_{cp}))

их 0, затем из полученных уравнений найти оценки: Имеем:

\frac{db(a,b)}{da}= \sum_{i=1}^n2(x_i-a(t_i-t_{cp})-b)(-1)

Преобразуем правые части полученных соотношений. Вынесем за знак суммы общие множители 2 и (-1). Затем рассмотрим слагаемые. Раскроем скобки в первом выражении, получим, что каждое слагаемое разбивается на три. Во втором выражении также каждое слагаемое есть сумма трех. Значит, каждая из сумм разбивается на три суммы. Имеем:

\frac{df(a,b)}{da}=(-2)(\sum_{i=1}^n2(x_i-a \su,_{i=1}^n(t_i-t_{cp})^2-b \sum_{i=1}^n(t_i-t_{cp}))\\
\frac{df(a,b)}{da}=(-2)(\sum_{i=1}^nX_i-a \sum_{i=1}^n(t_i-t_{cp})-bn)

Приравняем частные производные 0. Тогда в полученных уравнениях можно сократить множитель (-2). Поскольку

\sum_{i=1}^n(t_i-t_{cp})=0 ( 1)

уравнения приобретают вид

\sum_{i=1}^nx_i(t_i-t_{cp})-a \sum_{i=1}^n(t_i-t_{cp})^2=0\\
\sum_{i=1}^nx_i-bn=0

Следовательно, оценки метода наименьших квадратов имеют вид

a*=\frac{\sum_{i=1}^nx_i(t_i-t_{cp})}{\sum_{i=1}^n(t_i-t_{cp})^2},\\
b*=x_{cp}=\frac{x_1+x_2+\dots+x_n}{n} ( 2)

В силу соотношения (1) оценку а* можно записать в более симметричном

a*=\frac{\sum_{i=1}^n(x_i-x_{cp})(t_i-t_{cp})}{\sum_{i=1}^n(t_i-t_{cp})^2} ( 3)

виде:

Эту оценку нетрудно преобразовать и к виду

a*=\frac{\sum_{i=1}^nx_it_i- \frac{1}{n} \sum_{i=1}^nx_i \sum_{i=1}^nt_i}{\sum_{i=1}^nt_i^2- \frac{1}{n} \left( \sum_{i=1}^nt_i \right)^2} ( 4)

Следовательно, восстановленная функция, с помощью которой можно прогнозировать и интерполировать, имеет вид

x*(t) = a*(t - t_{ср})+ b*.

Обратим внимание на то, что использование t_{ср} в последней формуле ничуть не ограничивает ее общность. Сравним с моделью вида

x_k = c t_k+ d + e_k , k = 1,2,\dots,n.

Ясно, что

c=a, d=b-at_{cp}

Аналогичным образом связаны оценки параметров:

c*=a*, d*=b*-a*t_{cp}

Для получения оценок параметров и прогностической формулы нет необходимости обращаться к какой-либо вероятностной модели. Однако для того, чтобы изучать погрешности оценок параметров и восстановленной функции, т.е. строить доверительные интервалы для a*, b* и x*(t) , подобная модель необходима.

Непараметрическая вероятностная модель. Пусть значения независимой переменной t детерминированы, а погрешности e_k , k = 1,2,\dots,n, - независимые одинаково распределенные случайные величины с нулевым математическим ожиданием и дисперсией \sigma^2 неизвестной статистику.

В дальнейшем неоднократно будем использовать Центральную Предельную Теорему (ЦПТ) теории вероятностей для величин e_k , k = 1,2,\dots,n (с весами), поэтому для выполнения ее условий необходимо предположить, например, что погрешности e_k , k = 1,2,\dots,n, финитны или имеют конечный третий абсолютный момент. Однако заострять внимание на этих внутриматематических "условиях регулярности" нет необходимости.

Асимптотические распределения оценок параметров. Из формулы (2) следует, что

b*=\frac{a}{n} \sum_{i=1}^n(t_i-t_{cp})+b+\frac{1}{n} \sum+{i=1}^ne_i=b+ \frac{1}{n} \sum_{i=1}^ne_i ( 5)

Согласно ЦПТ оценка b* имеет асимптотически нормальное распределение с математическим ожиданием b и дисперсией \sigma^2/n оценка которой приводится ниже.

Из формул (2) и (5) вытекает, что

x_i-x_{cp}=a(t_i-t_{cp})+b+e_i-b- \frac{1}{n} \sum_{i=1}^ne_i,\\
(x_i-x_{cp})(t_i-t_{cp})=a(t_i-t_{cp})^2+e_i(t_i-t_{cp})- \frac{(t_i-t_{cp})}{n} \sum_{i=1}^n e_i

Последнее слагаемое во втором соотношении при суммировании по i обращается в 0, поэтому из формул (2-4) следует, что

a*=a+ \sum_{i=1}^nc_ie_i,\\
C_i=\frac{(t_i-t_{cp})}{\sum_{i=1}^n(t_i-t_{cp})^2} ( 6)

Формула (6) показывает, что оценка a* является асимптотически нормальной с математическим ожиданием a и дисперсией

D(a*)=\sum_{i=1}^nc_i^2D(e_i)=\frac{\sigma^2}{\sum_{i=1}^n(t_i-t_{cp})^2}

Отметим, что многомерная нормальность имеет быть, когда каждое слагаемое в формуле (6) мало сравнительно со всей суммой, т.е.

\lim_{n \to \infty} \max|t_i-t_{cp}|/ \{\sum_{i=1}^n(t_i-t_{cp})^2\}^{1/2}=0

Из формул (5) и (6) и исходных предположений о погрешностях вытекает также несмещенность оценок параметров.

Несмещенность и асимптотическая нормальность оценок метода наименьших квадратов позволяют легко указывать для них асимптотические доверительные границы (аналогично границам в предыдущей лекции) и проверять статистические гипотезы, например, о равенстве определенным значениям, прежде всего 0. Предоставляем читателю возможность выписать формулы для расчета доверительных границ и сформулировать правила проверки упомянутых гипотез.

Асимптотическое распределение прогностической функции. Из формул (5) и (6) следует, что

M(x*(t))=M\{a*(t-t_{cp})+b*\}=M(a*)(t-t_{cp})+M(b*)=a(t-t_{cp})+b=x(t)

т.е. рассматриваемая оценка прогностической функции является несмещенной. Поэтому

D(x*(t))=D(a*)(t-t_{cp})^2+2M\{(a*-a)(b*-b)(t-t_{cp})\}+D(b*)

При этом, поскольку погрешности независимы в совокупности и M(e_i)=0, то

M\{(a*-a)(b*-b)(t-t_{cp})\}=\frac{1}{n} \sum+{i=1}^nc_i(t-t_{cp})M(e_i^2)=\frac{1}{n}(t-t_{cp}) \sigma^2 \sum_{i=1}^nc_i=0

Таким образом,

D(x*(t))=\sigma^2 \{\frac{1}{n}+\frac{(t-t_{cp})^2}{\sum_{i=1}^n(t_i-t_{cp})^2}\}

Итак, оценка x*(t) является несмещенной и асимптотически нормальной. Для ее практического использования необходимо уметь оценивать остаточную дисперсию M(e_i^2)=\sigma^2

Оценивание остаточной дисперсии. В точках t_k , k = 1,2,\dots,n, имеются исходные значения зависимой переменной x_k и восстановленные значения x*(t_k). Рассмотрим остаточную сумму квадратов

SS=\sum_{i=1}^n(x*(t_i)-x_i)^2=\sum_{i=1}^n \{(a*-a)(t_i-t_{nd})+(b*-b)-e_i)^2\}

В соответствии с формулами (5) и (6)

SS=\sum_{i=1}^n \{(t_i-t_{cp}) \sum_{j=1}^n c_je_j+\frac{1}{n}\sum_{j=1}^n e_j-e_i\}^2=\\
=\sum_{i=1}^n \{\sum_{j=1}^n \{c_j(t_i-t_{cp})+\frac{1}{n}\}e_j-e_i\}^2=\sum_{i=1}^nSS_i

Найдем математическое ожидание каждого из слагаемых:

M(SS_i)= \sum_{j=1}^n\{c_j(t_i-t_{cp})+\frac 1n\}^2 \sigma^2-2\{c_i(t_i-t_{cp})+\frac 1n) \sigma^2+\sigma^2

Из сделанных ранее предположений вытекает, что при n \to \infty имеем M(SS_i) \to \sigma^2, i=1,2, \dots, n следовательно, по закону больших чисел статистика SS/n является состоятельной оценкой остаточной дисперсии \sigma^2.

Получением состоятельной оценки остаточной дисперсии завершается последовательность задач, связанных с рассматриваемым простейшим вариантом метода наименьших квадратов. Не представляет труда выписывание верхней и нижней границ для прогностической функции:

x_{верх}(t)=a*(t-t_{cp})+b*+\delta(t),\
X_{нижн}(t)=a*(t-t_{cp}+b*-\delta(t)

где погрешность \delta(t) имеет вид

\delta(t)=U(p) \sigma*\{ \frac 1n + \frac{(t-t_{cp}^2}{\sum_{i=1}^n (t_i-t_{cp})^2}\}^{1/2},\\
\sigma^2=\left(\frac{SS}{n} \right)^{1/2}

Здесь p - доверительная вероятность, U(p) , как и в "Статистический анализ числовых величин (непараметрическая статистика)" - квантиль нормального распределения порядка (1+р)/2, т.е.

Ф(U(p))=\frac{1+p}{2}

При p = 0,95 (наиболее применяемое значение) имеем U(p) = 1,96. Для других доверительных вероятностей соответствующие значения квантилей можно найти в статистических таблицах (см., например, наилучшее в этой сфере издание [1]).

Сравнение параметрического и непараметрического подходов. Во многих литературных источниках рассматривается параметрическая вероятностная модель метода наименьших квадратов. В ней предполагается, что погрешности имеют нормальное распределение. Это предположение позволяет математически строго получить ряд выводов. Так, распределения статистик вычисляются точно, а не в асимптотике, соответственно вместо квантилей нормального распределения используются квантили распределения Стьюдента, а остаточная сумма квадратов SS делится не на n, а на (n-2) . Ясно, что при росте объема данных различия стираются.

Рассмотренный выше непараметрический подход не использует нереалистическое предположение о нормальности погрешностей (см. начало "Статистический анализ числовых величин (непараметрическая статистика)" ).. Платой за это является асимптотический характер результатов. В случае простейшей модели метода наименьших квадратов оба подхода дают практически совпадающие рекомендации. Это не всегда так, не всегда два подхода бают близкие результаты. Напомним, что в задаче обнаружения выбросов методы, опирающиеся на нормальное распределение, нельзя считать обоснованными, и обнаружено это было с помощью непараметрического подхода (см. "Статистический анализ числовых величин (непараметрическая статистика)" ).

Общие принципы. Кратко сформулируем несколько общих принципов построения, описания и использования эконометрических методов анализа данных. Во-первых, должны быть четко сформулированы исходные предпосылки, т.е. полностью описана используемая вероятностно-статистическая модель. Во-вторых, не следует принимать предпосылки, которые редко выполняются на практике. В-третьих, алгоритмы расчетов должны быть корректны с точки зрения математико-статистической теории. В-четвертых, алгоритмы должны давать полезные для практики выводы.

Применительно к задаче восстановления зависимостей это означает, что целесообразно применять непараметрический подход, что и сделано выше. Однако предположение нормальности, хотя и очень сильно сужает возможности применения, с чисто математической точки зрения позволяет продвинуться дальше. Поэтому для первоначального изучения ситуации, так сказать, "в лабораторных условиях", нормальная модель может оказаться полезной.

Михаил Агапитов
Михаил Агапитов

Не могу найти  требования по оформлению выпускной контрольной работы по курсу профессиональной переподготовки "Менеджмент предприятия"

Подобед Александр
Подобед Александр

Я нажал кнопку "начать курс" и почти его уже закончил, но для получения диплома на бумаге, нужно его же оплатить? Как оплатить? 

Наталья Ковалева
Наталья Ковалева
Россия, город Кольчугино Владимирская область