Мне нужно изучить математическую статистику с нуля для обработки данных на компьютере. Читаю уже вторую лекцию, но пока ничего даже отдалённо близкого к моей цели не нахожу. Есть ли математическая статистика в дальнейших лекциях? Или я зря теряю время на изучение этого курса? У меня крайне ограниченный временной срок - я не могу терять время на самостоятельную проверку моего вопроса посредством изучения данного курса. |
Ряды динамики в статистике
9.3. Методы анализа основной тенденции в рядах динамики
Комплексный анализ динамических рядов, как правило, включает не только расчет характеристик интенсивности изменения уровней ряда при переходе от одного момента или промежутка времени к другому (абсолютных приростов, коэффициентов и темпов роста и прироста), а также нахождение обобщенных средних характеристик (среднего уровня ряда, средних темпов роста и прироста), но и выявление основных закономерностей в развитии динамического ряда. Определение тенденции развития, построение модели, описывающей изменение явления во времени, прогнозирование явления - все это важнейшие задачи при изучении динамических рядов экономических и социальных показателей.
На формирование уровней динамического ряда влияет множество различных факторов, которые по характеру воздействия можно объединить в три группы:
- действующие долговременно и определяющие основную тенденцию развития явления;
- действующие периодически - сезонные и циклические колебания;
- вызывающие случайные колебания уровней динамического ряда.
Соответственно, для анализа закономерности изменения уровней ряда динамики во времени применяют следующую модель:
где Тt - основная тенденция ряда (тренд);
St - циклические (в частности, сезонные) колебания;
еt - случайные колебания.
В аддитивной модели ряд динамики представлен как сумма перечисленных компонент [yt = Tt + St + et], в мультипликативной модели - как их произведение []. В дальнейшем будем исходить из предположения мультипликативной формы связи между компонентами ряда динамики.
Тенденцией развития, или трендом, называется сформировавшееся направление развития явления во времени под воздействием постоянно действующих факторов. Судить о наличии тенденции в динамическом ряду на основе его визуального анализа можно лишь тогда, когда четко видно, что при переходе от одного момента времени к другому уровни ряда возрастают или убывают. Однако, как правило, нельзя сразу сказать, есть или нет тенденция в изменении уровней динамического ряда. Для этого применяются специальные методы.
К методам выявления основной тенденции развития динамического ряда (Тt) относятся:
- метод укрупнения интервалов;
- метод скользящей средней;
- аналитическое выравнивание динамических рядов.
Рассмотрим их подробнее.
9.3.1. Метод укрупнения интервалов
Применение метода укрупнения интервалов рассмотрим на основе данных табл. 9.13.
Месяц | Поставка товаров, млн руб. |
---|---|
Январь | 80 |
Февраль | 78 |
Март | 75 |
Апрель | 80 |
Май | 82 |
Июнь | 85 |
Июль | 87 |
Август | 82 |
Сентябрь | 85 |
Октябрь | 84 |
Ноябрь | 86 |
Декабрь | 88 |
Как видим, визуальный анализ данных не позволяет сделать какие-либо выводы о наличии тенденции в данном динамическом ряду: в отдельные месяцы, например, в феврале, марте, августе, октябре и декабре, поставки товаров снижались по сравнению с предыдущими месяцами, в остальные периоды - возрастали.
Применим к исходным данным метод укрупнения интервалов, образовав новый динамический ряд с более крупными временными периодами - кварталами, и рассчитаем средний месячный объем поставок в каждом квартале (табл. 9.14).
Квартал | Среднемесячные поставки товаров, млн руб. |
---|---|
I | 77.7 |
II | 82.3 |
III | 84.0 |
IV | 84.7 |
Итак, по новым, более крупным интервалам уже четко видно, что значения исследуемого признака во временном аспекте имеют тенденцию к возрастанию.
Применение рассмотренного метода в основном ограничивается теми ситуациями, когда исходные данные относятся к дням, неделям или месяцам года, так как значения исследуемого признака по более мелким временным интервалам больше подвержены случайным колебаниям. Если временные промежутки представляют собой годы, то укрупнение интервалов становится малоэффективным.
9.3.2. Метод скользящей средней
Следующий способ выявления тенденции в динамическом ряду основан на расчете и анализе так называемых скользящих (подвижных) средних.
Скользящими (подвижными) средними называются средние арифметические значения показателя, исчисленные по новым m-членным укрупненным интервалам. Правила построения этих интервалов следующие. Первый из интервалов включает первые m уровней ряда динамики, второй интервал образуется путем исключения первого члена укрупненного интервала и замены его последующим элементом ряда динамики, имеющим номер (m + 1) и т.д. - до включения в интервал последнего уровня ряда. По вычисленным подобным путем подвижным средним делают вывод о существовании тенденции в динамическом ряду.
Если в качестве укрупненного интервала используют период в три месяца, то первая подвижная трехчленная средняя вычисляется как средняя арифметическая из данных за январь, февраль и март, вторая - как средняя арифметическая из данных за февраль, март, апрель и т.д. Значения подвижных средних относят к конкретному временному периоду, соответствующему середине укрупненного интервала.
Проведем сглаживание ряда методом скользящей средней по трем членам (табл. 9.15).
В нашем примере первая скользящая средняя относится к февралю, вторая - к марту и т. д.
В тех случаях, когда сглаживание проводится по четному числу уровней ряда динамики, середина временного интервала сглаживания будет находиться между двумя моментами (периодами) времени. Например, если проводить сглаживание по четырем членам, середина первого интервала будет находиться между февралем и мартом, второго интервала - между мартом и апрелем и т.д. В таких случаях возникает необходимость центрирования полученных результатов для отнесения сглаженных значений показателя к конкретным периодам или моментам времени. Расчет центрированных скользящих средних может проводиться в два этапа:
- определение скользящих сумм и нецентрированных скользящих средних по четному числу уровней ряда динамики;
- исчисление центрированных скользящих средних из двух смежных ранее исчисленных нецентрированных скользящих средних и отнесение их к соответствующим периодам или моментам времени.
Методика расчета центрированных скользящих средних показана ниже (табл. 9.16).
9.3.3. Аналитическое сглаживание (выравнивание) рядов динамики
Аналитическое выравнивание динамических рядов - это нахождение определенной модели (уравнения тренда), которая математически описывает тенденцию развития явления во времени. При этом уровни показателя рассматриваются только как функция от времени. В отличие от рассмотренных выше методов, таких, как укрупнение интервалов, скользящих средних, направленных в основном на то, чтобы ответить на вопрос: есть ли тенденция в динамическом ряду или нет, и определить ее направление, аналитическое выравнивание позволяет более точно установить характер развития явления, а главное - описать его математически, уловить все нюансы и направления развития и, что, пожалуй, наиболее интересно, использовать в дальнейшем полученную модель для прогнозирования.
Первым шагом в проведении аналитического выравнивания является выбор вида математической функции, которую предполагается использовать в качестве модели тренда. При этом можно руководствоваться формой кривой, полученной на основе отображения на графике эмпирических данных. Схема построения графика достаточно проста: по оси абсцисс откладываются временные периоды (даты), по оси ординат - значения уровней динамического ряда.
При анализе рядов динамики в качестве линии тренда чаще всего используются следующие функции:
- линейная:
yt= a0 + a1t;
- парабола 2-го порядка:
yt= a0 + a1t + a2t2;
- показательная:
- гиперболическая:
Кроме того, возможности современного программного обеспечения (например, система STATISTICA) позволяют использовать в качестве модели тренда математическую функцию любого (задаваемого пользователем) произвольного вида.
Выравнивание по линейной функции (прямой). Выбор в пользу выравнивания по линейной функции производят либо по результатам графического анализа эмпирических данных, либо если уровни ряда меняются в арифметической прогрессии (в этом случае рассчитанные цепные абсолютные приросты уровней приблизительно одинаковы).
При выравнивании по линейной функции (прямой) используется уравнение вида
yt= a0 + a1t,
где t - условный показатель времени.
Параметры уравнения определяются на основе метода наименьших квадратов путем решения системы нормальных линейных уравнений
В качестве примера рассмотрим динамический ряд, представленный в табл. 9.17.
Год | 2001 | 2002 | 2003 | 2004 | 2005 | 2006 |
---|---|---|---|---|---|---|
Доход банков от операций с ценными бумагами, млн руб. | 70 | 92 | 112 | 135 | 159 | 185 |
Цепные абсолютные приросты | - | 22 | 20 | 23 | 24 | 26 |
Итак, рассчитанные нами цепные абсолютные приросты относительно постоянны, поэтому можно говорить о целесообразности выбора в качестве аналитической функции уравнения прямой.
При нахождении параметров уравнения показатель времени удобно обозначить так, чтобы выполнялось следующее равенство: . Для этого при нечетном количестве уровней ряда моменту (периоду) времени, находящемуся в центре ряда, придается значение t = 0, предыдущим - присваивают значения -1, -2, -3 и т.д. , а последующим - значения 1, 2, 3 и т.д. (т.е. с шагом 1 от середины ряда в одну и другую сторону от центра).
Предположим, что мы рассматриваем динамический ряд, имеющий пять уровней (за период с 2002 по 2006 г.), тогда условный показатель времени обозначим так, как это показано в табл. 9.18.
Год | 2002 | 2003 | 2004 | 2005 | 2006 |
---|---|---|---|---|---|
Доход банков от операций с ценными бумагами, млн руб. | 52 | 112 | 135 | 159 | 185 |
Условный показатель времени t | -2 | -1 | 0 | 1 | 2 |
При четном количестве уровней в середине ряда находятся два момента (периода) времени. Одному из них присваивают значение t = -1, а другому t = +1. Тогда предыдущие моменты времени получают значения -3, -5 и т.д., а последующие значения - +3, +5 и т.д. (т.е. с шагом 2 в одну и другую сторону от центра).
При подобном способе обозначения времени система уравнений упрощается
Тогда коэффициенты уравнения а0 и а1 находят следующим образом:
Определим по данным табл. 9.17, в которой представлен ряд динамики с четным числом уровней, параметры уравнения прямой (табл. 9.19).
Год | Доход банков от операций с ценными бумагами, млн руб., y | t | t2 | yt | Выравненные значения, yt |
---|---|---|---|---|---|
2001 | 70 | -5 | 25 | -350 | 68,43 |
2002 | 92 | -3 | 9 | -276 | 91,258 |
2003 | 112 | -1 | 1 | -112 | 114,086 |
2004 | 135 | 1 | 1 | 135 | 136,914 |
2005 | 159 | 3 | 9 | 477 | 159,742 |
2006 | 185 | 5 | 25 | 925 | 182,57 |
Сумма | 753 | 0 | 70 | 799 | 753 |
Тогда
Искомое уравнение прямой имеет вид: yt= 125,5 + 11,414t.
Подставляя в полученное уравнение соответствующее значение t, рассчитаем выравненные теоретические значения показателя (см. последнюю графу табл. 9.11). При этом сумма выравненных значений должна равняться сумме эмпирических значений (753), если это не так, то параметры уравнения определены неверно.
График, построенный по выравненным значениям показателя, будет отражать тенденцию развития явления во времени (рис. 9.1).
Рис. 9.1. Уравнение прямой, описывающее изменение во времени дохода банков от операций с ценными бумагами
На основе полученного уравнения тренда можно строить прогнозные значения показателя для разных периодов времени путем подстановки в полученное уравнение значений временной компоненты. Например, для 2007 г. получим следующую ожидаемую величину дохода:
yi= 125,5 + 11,414t = 125,5 + 11,414 * 7 = 205,398 (млн руб.).
Выравнивание по параболе второго порядка. При ускоренном или замедленном изменении уровней динамического ряда, когда постоянны рассчитанные вторые разности уровней (цепные абсолютные приросты цепных абсолютных приростов), для аналитического выравнивания применяют параболу второго порядка:
yi= a0 + a1t + a2t2.
Параметры уравнения находят на основе метода наименьших квадратов, при этом обозначение условного показателя времени t абсолютно аналогично обозначению времени при построении прямой.
Система нормальных уравнений для нахождения параметров уравнения параболы имеет вид:
Если принять обозначение времени, при котором выполняется равенство , рассматриваемую систему уравнений можно упростить. Она примет следующий вид:
Проведем аналитическое выравнивание данных, характеризующих динамику инвестиций за период 2001-2006 гг. (табл. 9.20).
Показатель | Год | |||||
---|---|---|---|---|---|---|
2001 | 2002 | 2003 | 2004 | 2005 | 2006 | |
Инвестиции, млн руб., yi | 98 | 100 | 130 | 193 | 280 | 391 |
Первые разности (цепные абсолютные приросты) | - | 2 | 30 | 63 | 87 | 111 |
Вторые разности | - | - | 28 | 33 | 24 | 24 |
Рассчитанные вторые разности демонстрируют относительное постоянство, поэтому в качестве аналитической функции для выравнивания возьмем уравнение параболы второго порядка. Наш выбор подтверждает и графический анализ данных (рис. 9.2).
Проведем необходимые расчеты для определения параметров уравнения в табл. 9.21.
Год | Вложение в уставные капиталы, млн руб., y | Условное обозначение времени, t | t2 | t4 | y-t | y-t2 | Выравненные значения, yi |
---|---|---|---|---|---|---|---|
1999 | 98 | -5 | 25 | 625 | -490 | 2 450 | 97 |
2000 | 100 | -3 | 9 | 81 | -300 | 900 | 101 |
2001 | 130 | -1 | 1 | 1 | -130 | 130 | 132 |
2002 | 193 | 1 | 1 | 1 | 193 | 193 | 191 |
2003 | 280 | 3 | 9 | 81 | 840 | 2 520 | 278 |
2004 | 391 | 5 | 25 | 625 | 1 955 | 9 775 | 392 |
Сумма | 1 192 | 0 | 70 | 1 414 | 2 068 | 15 968 | 1 192 |
Построим и решим систему уравнений (табл. 9.15):
Таким образом, искомое уравнение параболы имеет вид
yi =158,406 + 29,543t + 3,451t2.
Выравнивание по показательной функции. Если уровни ряда меняются в геометрической прогрессии, т.д. рассчитанные цепные коэффициенты роста относительно постоянны, то для выравнивания используют показательную функцию вида
Параметры показательного уравнения определяются путем решения следующей системы нормальных уравнений:
Если принять обозначении времени t, при котором выполняется условие , система гораздо упрощается:
Проведем аналитическое выравнивание данных, характеризующих изменение числа страховых компаний региона за период 2000-2006 гг. (табл. 9.22).
Год | 2000 | 2001 | 2002 | 2003 | 2004 | 2005 | 2006 |
---|---|---|---|---|---|---|---|
Число страховых компаний, yi | 215 | 220 | 223 | 229 | 235 | 241 | 248 |
Цепные коэффициенты роста | - | 1,023 | 1,014 | 1,027 | 1,026 | 1,026 | 1,029 |
Относительно постоянные цепные коэффициенты роста позволяют в качестве аналитического выражения тренда выбрать показательную функцию.
Проведем необходимые расчеты для определения параметров выбранного уравнения в табл. 9.23.
Год | Число страховых компаний, y | Условное обозначение времени, t | t2 | lgy | t – lgy | Выравненные значения, yt |
---|---|---|---|---|---|---|
2000 | 215 | -3 | 9 | 2,332438 | -6,99732 | 210 |
2001 | 220 | -2 | 4 | 2,342423 | -4,68485 | 217 |
2002 | 223 | -1 | 1 | 2,348305 | -2,3483 | 223 |
2003 | 229 | 0 | 0 | 2,359835 | 0 | 230 |
2004 | 241 | 1 | 1 | 2,371068 | 2,371068 | 237 |
2005 | 241 | 2 | 4 | 2,382017 | 4,764034 | 244 |
2006 | 248 | 3 | 9 | 2,394452 | 7,183355 | 251 |
Сумма | 1 611 | 0 | 28 | 16,53054 | 0,287991 | 1 611 |
Составим и решим систему нормальных уравнений:
Показательное уравнение будет иметь вид
yi= 229,8 * 1,03t
Подставляя в полученное уравнение значения условного показателя времени t, рассчитаем выравненные значения `yi.
Выравнивание по гиперболе. Если уровни динамического ряда снижаются, постепенно замедляя свою скорость, но по логике никогда не смогут достичь нуля, то для проведения аналитического выравнивания выбирают уравнение гиперболы:
Параметры этого уравнения определяются на основе решения следующей системы нормальных уравнений:
При нахождении параметров гиперболы применение принципа "отсчета от условного нуля", который использовался при нахождении параметров прямой, параболы и показательной функции, становится невозможным из-за выражения 1/t при котором . Поэтому моменты (периоды) времени просто нумеруются, т.д. условному показателю времени присваиваются значения (1, 2, 3 и т.д.) начиная с первого уровня ряда.
Произведем аналитическое выравнивание данных, характеризующих изменение себестоимости единицы продукции вида "А" в течение года (табл. 9.24).
Месяц | Себестоимость единицы продукции вида "А", руб., y | Условное обозначение времени, t | 1/t | t2 | 1/t2 | y/t | Выравнивание значения, `yi |
---|---|---|---|---|---|---|---|
Январь | 58 | 1 | 1,00000 | 1 | 1,000000 | 58,000 | 59 |
Февраль | 52 | 2 | 0,50000 | 4 | 0,25000 | 26,000 | 50 |
Март | 48 | 3 | 0,33333 | 9 | 0,11111 | 16,000 | 47 |
Апрель | 45 | 4 | 0,25000 | 16 | 0,06250 | 11,250 | 45 |
Май | 44 | 5 | 0,20000 | 25 | 0,04000 | 8,800 | 44 |
Июнь | 43 | 6 | 0,16667 | 36 | 0,02778 | 7,167 | 43 |
Июль | 43 | 7 | 0,14286 | 49 | 0,02041 | 6,143 | 43 |
Август | 42 | 8 | 0,12500 | 64 | 0,01563 | 5,250 | 43 |
Сентябрь | 42 | 9 | 0,11111 | 81 | 0,01235 | 4,667 | 42 |
Октябрь | 42 | 10 | 0,10000 | 100 | 0,01000 | 4,200 | 42 |
Ноябрь | 42 | 11 | 0,09091 | 121 | 0,00826 | 3,818 | 42 |
Декабрь | 41 | 12 | 0,08333 | 144 | 0,00694 | 3,417 | 42 |
Сумма | 542 | - | 3,10321 | - | 1,56498 | 154,711 | 542 |
Составим систему уравнений
откуда находим значения параметров
Уравнение гиперболы примет вид
Подставив в полученное уравнение значения условного показателя времени t, рассчитаем выравненные значения yi и поместим их в расчетную таблицу. Как видим, выравненные значения достаточно близки к эмпирическим данным, что позволяет надеяться на получение достоверных прогнозов на основе построенной модели.
При проведении аналитического выравнивания зачастую бывает трудно заранее определить подходящий вид уравнения тренда, особенно если эмпирические данные графически явно не демонстрируют относимость к какой-либо аналитической функции. Тогда поступают следующим образом: строят несколько уравнений тренда. Затем для каждого из них вычисляют остаточную дисперсию и модель с наименьшей величиной остаточной дисперсии признают лучшей из имеющихся на данный момент.
Остаточная дисперсия исчисляется по формуле
Это более простой метод, но есть и другие, более сложные методы.