Опубликован: 10.09.2016 | Доступ: свободный | Студентов: 957 / 167 | Длительность: 15:27:00
Тема: Экономика
Лекция 3:

Множественная регрессия

3.12. Тест Чоу для проверки структурных изменений модели

Если исследователь предполагает, что за время наблюдений произошли резкие структурные изменения в виде связей между зависимой и независимыми переменными, то для проверки этой гипотезы используют тест Чоу. В этом случае строятся три регрессионные модели: первая по наблюдениям, проведенным до изменений, вторая по наблюдениям после происшедших изменений в структуре связей, а третья по всей выборке наблюдений. Нулевая гипотеза состоит в предположении о равенстве истинных соответствующих параметров регрессии для всех моделей. Нулевая гипотеза отвергается при уровне значимости \alpha , если наблюдаемая F-статистика


где

p - число переменных в модели;

- суммы квадратов остатков моделей, построенных по наблюдениям, проведенным до изменений, после изменений и по всей выборке.

Рассмотрим пример. Пусть Y(t) временной ряд урожайности зерновых культур в России, график которого представлен на рис. 3.1.


Рис. 3.1.

Следует проверить гипотезу об изменении в тенденции поведения ряда, которое произошло после распада СССР, т.е. после 1991 г., вследствие ухудшения снабжения сельскохозяйственного производства горюче-смазочными материалами (ГСМ), удобрениями, сельскохозяйственной техникой.

Первая выборка включает все наблюдения за период 1948-2001 гг. При этом уравнение регрессии имеет вид Y(t) = 7,68 + 0,18t. То есть в среднем урожайность зерновых в России повышалась на 0,18 ц/га в год. Сумма квадратов остатков для этого уравнения равна О качестве модели можно судить по табл. 3.13.

Таблица 3.13


Вторая выборка состоит из наблюдений за 1948-1991 гг. Уравнение регрессии на этом участке имеет следующий вид: Y(t) = 6,49 + 0,254t (табл. 3.14).

Таблица 3.14


Сумма квадратов остатков при этом равна \sum^{44}_{i=1} e_{i}^{2} = 138,2942.

Получим уравнение для оставшейся части наблюдений за 1991-2001 гг. (табл. 3.15). Имеем Y(t) = 31,66 - 0,32t.

Таблица 3.15


Сумма квадратов остатков при этом равна

Наблюдаемая F-статистика Чоу равна


При \alpha = 0,01

F_{krit}(\alpha ; p + 1; n - 2p - 2) = F_{krit}(0,01; 2; 50) = 5,057.

Нулевая гипотеза об отсутствии изменения в тенденции поведения ряда урожайности в России после распада СССР уверенно опровергается на 1%-ном уровне значимости.

3.13. Выбор модели оптимальной сложности. Критерии Акайке и Шварца

При построении модели, адекватно описывающей изучаемый процесс в экономике, очень важную роль играет анализ правильности ее спецификации. Отрицательно на объясняющих свойствах модели сказывается как отсутствие значимой переменной, так и избыточное присутствие незначимой объясняющей переменной.

В случае когда в модель не включена существенная переменная (существенной называют переменную, которая должна быть в модели согласно правильной теории), наблюдаются следующие последствия:

  1. исчезает возможность правильной оценки и интерпретации уравнений;
  2. коэффициенты при оставшихся переменных становятся смещенными;
  3. стандартные ошибки коэффициентов и t-статистики некорректны и поэтому не могут быть использованы для суждения о качестве подгонки предлагаемой модели.

Предположим, к примеру, что из модели Y = \alpha + \beta _{1}X_{1i} + \beta _{2}X_{2i} + \varepsilon _{i} исключена переменная X_{2}. Тогда в новой спецификации фактически рассматривается модель Y_{i} = \alpha + \beta _{1}X_{1i} + u_{i}, где u_{i} = \beta _{2}X_{2i} + \varepsilon _{i}.

Если объясняющие переменные Х_{1} и Х_{2} коррелированы, то нарушается предпосылка теоремы Гаусса - Маркова о некоррелированности случайного члена и регрессоров, поскольку в этом случае между Х_{1} и u существует ненулевая корреляция. Оценки, полученные по методу наименьших квадратов для данной модели, уже не являются эффективными среди линейных оценок.

Они даже не являются несмещенными, поскольку для МНК-оценки коэффициента \beta _{1} в этом случае получаем: .

Наблюдается смещение, равное

Включение несущественной переменной в модель не приводит к смещению оценок коэффициентов, но появляется другой недостаток - растут стандартные ошибки коэффициентов. Оценки становятся статистически незначимыми.

Если точная спецификация модели неизвестна (что практически всегда и бывает), то пользуются критериями, позволяющими выбирать из некоторого множества моделей наилучшую модель.

Наиболее распространенными являются критерий Шварца и критерий Акайке. Они позволяют выбирать наилучшую модель из множества различных спецификаций и численно построены так, чтобы учесть влияние на качество подгонки модели двух противоположных тенденций.

При добавлении переменных в модель качество подгонки в общем случае увеличивается. Заметим, что число регрессоров должно быть разумным, чтобы не вызвать "искусственной подгонки" зависимой переменной. Вместе с тем недостаточное количество переменных, включаемых в модель, дает большую стандартную ошибку, что ведет к снижению качества подгонки.

Рассматриваемые критерии находят по формулам



где


- выборочная дисперсия остатков;
К - число ограничений на степени свободы.

Значение К в этом случае равно числу независимых переменных, включая свободный член. Таким образом, если в модели присутствует два регрессора и свободный член, то число ограничений на степени свободы будет равно трем.

Первое слагаемое представляет собой штраф за большую дисперсию, второе - штраф за использование дополнительных переменных. Критерии рассчитываются для каждой рассматриваемой спецификации. При сравнении двух типов моделей предпочтение отдается спецификации, которая имеет наименьшие значения критериев.

Рассмотрим пример использования информационных критериев при выборе наилучшей спецификации модели.

В качестве исходных данных возьмем временной ряд длиной 20 наблюдений. Будем подгонять этот ряд линейными регрессиями, в которых регрессоры являются полиномами различных степеней - Х, Х_{2}, \dots , Х_{7}. Наша задача - выбрать оптимальную степень наибольшего полинома. Для сравнения моделей с различными степенями полиномов воспользуемся критериями Акайке и Шварца. Модель, показывающую наименьшие значения критериев, будем считать оптимальной.

Для регрессии Y = a_{0} + a_{1}X + e значения критериев и коэффициенты полинома представлены в табл. 3.16, а график наблюдаемых и предсказанных значений для n = 1 - на рис. 3.2.

Таблица 3.16



Рис. 3.2.

Для регрессии Y = a_{0} + a_{1}X + а_{2}Х^{2} + e значения критериев и коэффициенты полинома представлены в табл. 3.17, а график наблюдаемых и предсказанных значений для n = 2 - на рис. 3.3.

Таблица 3.17



Рис. 3.3.

Для регрессии Y = a_{0} + a_{1}X + а_{2}Х^{2} + а_{3}Х^{3} + e значения критериев и коэффициенты полинома представлены в табл. 3.18, а график наблюдаемых и предсказанных значений для n = 3 - на рис. 3.4.

Таблица 3.18



Рис. 3.4.

Для регрессии Y = a_{0} + a_{1}X + а_{2}Х^{2} + а_{3}Х^{3} + а_{4}Х^{4} + e значения критериев и коэффициенты полинома представлены в табл. 3.19, а график наблюдаемых и предсказанных значений для n = 4 - на рис. 3.5.

Таблица 3.19



Рис. 3.5.

Для регрессии Y = a_{0} + a_{1}X + а_{2}Х^{2} + а_{3}Х^{3} + а_{4}Х^{4} + а_{5}Х^{5} + e значения критериев и коэффициенты полинома представлены в табл. 3.20, а график наблюдаемых и предсказанных значений для n = 5 - на рис. 3.6.

Таблица 3.20



Рис. 3.6.

Для регрессии Y = a_{0} + a_{1}X + а_{2}Х^{2} + а_{3}Х^{3} + а_{4}Х^{4} + а_{5}Х^{5} + а_{6}Х^{6} + e значения критериев и коэффициенты полинома представлены в табл. 3.21, а график наблюдаемых и предсказанных значений для n = 6 - на рис. 3.7.

Таблица 3.21



Рис. 3.7.

Для регрессии Y = a_{0} + a_{1}X + а_{2}Х^{2} + а_{3}Х^{3} + а_{4}Х^{4} + а_{5}Х^{5} + а_{6}Х^{6} + а_{7}Х^{7} + e значения критериев и коэффициенты полинома представлены в табл. 3.22, а график наблюдаемых и предсказанных значений для n = 7 - на рис. 3.8.

Таблица 3.22



Рис. 3.8.

Для регрессии Y = a_{0} + a_{1}X + а_{2}Х^{2} + а_{3}Х^{3} + а_{4}Х^{4} + а_{5}Х^{5} + а_{6}Х^{6} + а_{7}Х^{7} + + а_{8}Х^{8} + e значения критериев и коэффициенты полинома представлены в табл. 3.23, а график наблюдаемых и предсказанных значений для n = 8 - на рис. 3.9.

Таблица 3.23. Наблюдаемые и предсказанные(polinom.sta)



Рис. 3.9.

Сравнительный график предсказаний для моделей со степенями полиномов n = 7 и n = 8 представлен на рис. 3.10.


Рис. 3.10.

Результаты показывают, что минимум значений критериев Акайке и Шварца наблюдается при самой высокой степени полинома, равной семи. Отсюда вывод: при подгонке исследуемого ряда целесообразно использовать спецификацию с наивысшей степенью полинома, равной семи.

Дополнительным доводом в пользу такого выбора спецификации может служить значение скорректированного R^{2}, которое является наибольшим из всех рассматриваемых.

Графический анализ качества подгонки полиномами неизвестной функции дает следующий результат: при повышении степени полинома с n = 1 до n = 7 улучшение объясняющих свойств модели можно наблюдать визуально. На изображенных графиках (см. рис. 3.2-3.10) предсказанные значения приближаются к реальным данным с увеличением степени полинома. При использовании полинома восьмой степени качество подгонки практически не улучшается. На приведенном сравнительном графике предсказаний для моделей со степенями полинома n = 7 и n = 8 (см. рис. 3.10) графики предсказанных значений сливаются, следовательно, использование полинома восьмой степени избыточно и практически не улучшает прогнозных свойств модели. Этот вывод подтверждается и ростом значения критерия Акайке.

Контрольные вопросы

  1. Напишите линейную модель регрессии с k-факторами.
  2. Какая матрица называется ковариационной матрицей случайного вектора Х, а какая - корреляционной? В чем их отличие?
  3. Каково условие однородности (гомоскедастичности) наблюдений?
  4. Как посредством МНК получают систему нормальных уравнений? С какой целью составляется и решается система нормальных уравнений МНК?
  5. Приведите формулу расчета коэффициентов регрессионного уравнения в методе наименьших квадратов.
  6. Докажите несмещенность МНК-оценок коэффициентов модели.
  7. Выведите формулу расчета дисперсий и средних квадратических ошибок МНК-коэффициентов модели. Что собой представляет матрица дисперсий-ковариаций векторов-столбцов матрицы наблюдений?
  8. Как оценивается качество уравнения регрессии с помощью абсолютной и относительной ошибки аппроксимации?
  9. Дайте определение коэффициента детерминации.
  10. Как проводится дисперсионный анализ качества модели в случае многих факторов?
  11. Как проверяется значимость коэффициентов регрессии?
  12. Приведите формулы для расчета доверительного интервала функции регрессии и для индивидуальных значений зависимой переменной.
  13. Почему коэффициент детерминации во многих случаях не может помочь при определении числа включаемых в модель переменных?
  14. Дайте определение частного коэффициента корреляции. Какова его роль в процедуре шаговой регрессии последовательного включения (исключения) переменных?
  15. В чем заключается проблема мультиколлинеарности факторов?
  16. Опишите способы устранения мультиколлинеарности, в частности процедуру гребневой регрессии (ридж-регрессии).
  17. Расскажите о методе главных компонент, эффективной процедуре борьбы с мультиколлинеарностью.
  18. Какие переменные называются фиктивными, манекенными? Чем вызвана необходимость использования фиктивных переменных?
  19. Расскажите о тесте Чоу проверки структурной однородности модели.
  20. Как осуществляется выбор моделей оптимальной сложности на основе критериев Акайке и Шварца?
Инесса Воробьева
Инесса Воробьева

В дисциплине "Основы эконометрики" тест 6 дается по теме 7.