Опубликован: 16.12.2009 | Уровень: для всех | Доступ: платный
Лекция 11:

Эконометрические информационные технологии

< Лекция 10 || Лекция 11: 12345 || Лекция 12 >

Методы размножения выборок (бутстреп-методы)

Эконометрика и прикладная статистика бурно развиваются последние десятилетия. Серьезным (хотя, разумеется, не единственным и не главным) стимулом является стремительно растущая производительность вычислительных средств. Поэтому понятен острый интерес к статистическим методам, интенсивно использующим компьютеры. Одним из таких методов является так называемый "бутстреп", предложенный в 1977 г. Б.Эфроном из Станфордского университета (США).

Сам термин "бутстреп" - это "bootstrap" русскими буквами и буквально означает что-то вроде: "вытягивание себя (из болота) за шнурки от ботинок". Термин специально придуман и заставляет вспомнить о подвигах барона Мюнхгаузена.

В истории эконометрики было несколько более или менее успешно осуществленных рекламных кампаний. В каждой из них "раскручивался" тот или иной метод, который, как правило, отвечал нескольким условиям:

  • по мнению его пропагандистов, полностью решал актуальную научную задачу;
  • был понятен (при постановке задачи, при ее решении и при интерпретации результатов) широким массам потенциальных пользователей;
  • использовал современные возможности вычислительной техники.

Пропагандисты метода, как правило, избегали беспристрастного сравнения его возможностей с возможностями иных эконометрических методов. Если сравнения и проводились, то с заведомо слабым "противником".

В нашей стране в условиях отсутствия систематического эконометрического образования подобные рекламные кампании находили особо благоприятную почву, поскольку у большинства затронутых ими специалистов не было достаточных знаний в области методологии построения эконометрических моделей для того, чтобы составить самостоятельное квалифицированное мнение.

Речь идет о таких методах как бутстреп, нейронные сети, метод группового учета аргументов, робастные оценки по Тьюки-Хуберу ( "Проблемы устойчивости эконометрических процедур" ), асимптотика пропорционального роста числа параметров и объема данных и др. Бывают локальные всплески энтузиазма, например, московские социологи в 1980-х годах пропагандировали так называемый "детерминационный анализ" - простой эвристический метод анализа таблиц сопряженности, хотя в Новосибирске в это время давно уже было разработано продвинутое программное обеспечение анализа векторов разнотипных признаков ( "Статистика нечисловых данных" ).

Однако даже на фоне всех остальных рекламных кампаний судьба бутстрепа исключительна. Во-первых, признанный его автор Б. Эфрон с самого начала признавался, что он ничего принципиально нового не сделал. Его исходная статья (первая в сборнике [21]) называлась: "Бутстреп-методы: новый взгляд на методы складного ножа". Во вторых, сразу появились статьи и дискуссии в научных изданиях, публикации рекламного характера, и даже в научно-популярных журналах. Бурные обсуждения на конференциях, спешный выпуск книг. В 1980-е годы финансовая подоплека всей этой активности, связанная с выбиванием грантов на научную деятельность, содержание учебных заведений и т.п. была мало понятна отечественным специалистам.

В чем основная идея группы методов "размножения выборок", наиболее известным представителем которых является бутстреп?

Пусть дана выборка x_1, x_2, x_3, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-1}, x_n. В вероятностно-статистической теории предполагаем, что это - набор независимых одинаково распределенных случайных величин. Пусть эконометрика интересует некоторая статистика f_n(x_1, x_2, \dots, x_n) Как изучить ее свойства? Подобными проблемами мы занимались на протяжении всей книги и знаем, насколько это непросто. Идея, которую предложил в 1949 г. М. Кенуй (это и есть "метод складного ножа") состоит в том, чтобы из одной выборки сделать много, исключая по одному наблюдению (и возвращая ранее исключенные). Перечислим выборки, которые получаются из исходной:

x_2, x_3, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-1}, x_n\\
x_1, x_3, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-1}, x_n\\
x_1, x_2, x_4, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-1}, x_n,\dots \\
x_1, x_2, x_3, \dots, x_{k-1}, x_{k+1}, \dots, x_{n-1}, x_n,\dots \\
x_1, x_2, x_3, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-2}, x_n\\
x_1, x_2, x_3, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-1}

Всего n новых (размноженных) выборок объемом (n-1) каждая. По каждой из них можно рассчитать значение интересующей эконометрика статистики (с уменьшенным на 1 объемом выборки):

f_{n-1,1}(\omega)x_2, x_3, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-1}, x_n\\
f_{n-1,2}(\omega)x_1, x_3, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-1}, x_n\\
f_{n-1,3}(\omega)x_1, x_2, x_4, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-1}, x_n,\dots \\
f_{n-1,k}(\omega)x_1, x_2, x_3, \dots, x_{k-1}, x_{k+1}, \dots, x_{n-1}, x_n,\dots \\
f_{n-1,n-1}(\omega)x_1, x_2, x_3, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-2}, x_n\\
f_{n-1,n}(\omega)x_1, x_2, x_3, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-1}

Полученные значения статистики позволяют судить о ее распределении и о характеристиках распределения - о математическом ожидании, медиане, квантилях, разбросе, среднем квадратическом отклонении. Значения статистики, построенные по размноженным подвыборкам, не являются независимыми, однако, как мы видели "Многомерный статистический анализ" на примере ряда статистик, возникающих в методе наименьших квадратов и в кластер-анализе (при обсуждении возможности объединения двух кластеров), при росте объема выборки влияние зависимости может ослабевать и со значениями статистик типа f_{n-1,k}(\omega) k=1,2, \dots, n можно обращаться как с независимыми случайными величинами.

Однако и без всякой вероятностно-статистической теории разброс величин f_{n-1,k}(\omega), k=1,2, \dots, n дает наглядное представление о том, какую точность может дать рассматриваемая статистическая оценка.

Сам М. Кенуй и его последователи использовали размножение выборок в основном для построения оценок с уменьшенным смещением. А вот Б. Эфрон преложил новый способ размножения выборок, существенно использующий датчики псевдослучайных чисел. А именно, он предложил строить новые выборки, моделируя выборки из эмпирического распределения (см. определения в терминологическом Приложении 1). Другими словами, Б. Эфрон предложил взять конечную совокупность из n элементов исходной выборки x_1, x_2, x_3, \dots, x_{k-1}, x_k, x_{k+1}, \dots, x_{n-1}, x_n и с помощью датчика случайных чисел сформировать из нее любое число размноженных выборок. Процедура, хотя и нереальна без ЭВМ, проста с точки зрения программирования. По сравнению с описанной выше процедурой появляются новые недостатки - неизбежные совпадения элементов размноженных выборок и зависимость от качества датчиков псевдослучайных чисел (см. выше). Однако существует математическая теория, позволяющая (при некоторых предположениях и безграничном росте объема выборки) обосновать процедуры бутстрепа (см. сборник статей [21]).

Есть много способов развития идеи размножения выборок (см., например, статью [22]). Можно по исходной выборке построить эмпирическую функцию распределения, а затем каким-либо образом от кусочно-постоянной функции перейти к непрерывной функции распределения, например, соединив точки (x(i); \frac in), i=1,2, \dots, n отрезками прямых. Другой вариант - перейти к непрерывному распределению, построив непараметрическую оценку плотности. После этого рекомендуется брать размноженные выборки из этого непрерывного распределения (являющегося состоятельной оценкой исходного), непрерывность защитит от совпадений элементов в этих выборках.

Другой вариант построения размноженных выборок - более прямой. Исходные данные не могут быть определены совершенно точно и однозначно. Поэтому предлагается к исходным данным добавлять малые независимые одинаково распределенные погрешности. При таком подходе одновременно соединяем вместе идеи устойчивости ( "Проблемы устойчивости эконометрических процедур" ) и бутстрепа. При внимательном анализе многие идеи эконометрики тесно друг с другом связаны (см. статью [22]).

В каких случаях целесообразно применять бутстреп, а в каких - другие эконометрические методы? В период рекламной кампании встречались, в том числе в научно-популярных журналах, утверждения о том, что и для оценивания математического ожидания полезен бутстреп. Как показано в статье [22], это совершенно не так. При росте числа испытаний методом Монте-Карло бутстреп-оценка приближается к классической оценке - среднему арифметическому результатов наблюдений. Другими словами, бутстреп-оценка отличается от классической только шумом псевдослучайных чисел.

Аналогичной является ситуация и в ряде других случаев. Там, где эконометрическая теория хорошо развита, где найдены методы анализа данных, в том или иной смысле близкие к оптимальным, бутстрепу делать нечего. А вот в новых областях со сложными алгоритмами, свойства которых недостаточно ясны, он представляет собой ценный инструмент для изучения ситуации.

< Лекция 10 || Лекция 11: 12345 || Лекция 12 >
Михаил Агапитов
Михаил Агапитов

Не могу найти  требования по оформлению выпускной контрольной работы по курсу профессиональной переподготовки "Менеджмент предприятия"

Подобед Александр
Подобед Александр

Я нажал кнопку "начать курс" и почти его уже закончил, но для получения диплома на бумаге, нужно его же оплатить? Как оплатить? 

Вячеслав Гримальский
Вячеслав Гримальский
Россия
Михаил Байков
Михаил Байков
Россия, Москва, Московский Авиационный Институт, 2009