Опубликован: 01.09.2009 | Уровень: для всех | Доступ: свободно
Лекция 8:

Управление организационно-экономической устойчивостью промышленных корпоративных систем на основе динамического анализа состояния в условиях неопределенности

< Лекция 7 || Лекция 8: 123456789101112

8.5. Общая схема изучения устойчивости в математических моделях организационно-экономических явлений и процессов

Понятие "организационно-экономическая устойчивость предприятия". Понятие "устойчивость" пришло в экономическую науку из математики, где изначально имело следующее значение (определение А.М. Ляпунова).

Определение. Система устойчива, если

\forall \varepsilon \text{  } \exists\delta(\varepsilon): \\
\|\overline{х}(0) - \overline{х}^0 (0)\| < \delta(\varepsilon) \Rightarrow 
\|\overline{х}(t) - \overline{х}^0 (t)\| < \varepsilon

т. е. если малым возмущениям внешней системы соответствуют малые возмущения рассматриваемой системы, то такая система считается устойчивой.

В экономике понятие организационно-экономической устойчивости предприятия введено следующим образом:

" … способность сохранять финансовую стабильность предприятия при постоянном изменении рыночной конъюнктуры путем совершенствования и целенаправленного развития его производственнотехнологической и организационной структуры … " [1]

Таким образом, стремление сохранять свое положение на рынке подразумевает комплекс мер по поддержанию стабильного положения предприятия под воздействием внешней среды, т. е. создание системы управления, отслеживающей изменения внешней системы и обеспечивающей выработку управляющих воздействий, поддерживающих предприятие на желательном уровне развития.

Целесообразно рассмотреть общее представление об устойчивости, сложившееся в современной науке.

Устойчивость математических моделей. Проблемам познания, в том числе в технических исследованиях, естественнонаучных и социальноэкономических областях, посвящено огромное количество работ. Однако это не значит, что обо всем в этой области уже все сказано. А о некоторых положениях целесообразно говорить еще и еще раз, пока они не станут общеизвестными.

В идеале каждую модель порождения и анализа данных следовало бы рассматривать как аксиоматическую теорию. В этом идеальном случае создание и использование модели происходит в соответствии с известной триадой "практика - теория - практика". А именно, сначала вводятся некоторые математические объекты, соответствующие интересующим исследователя реальным объектам, и на основе представлений о свойствах реальных объектов формулируются необходимые для успешного моделирования свойства математических объектов, которые и принимаются в качестве аксиом. Затем аксиоматическая теория развивается как часть математики, вне связи с представлениями о реальных объектах. На заключительном этапе полученные в математической теории результаты интерпретируются содержательно. Получаются утверждения о реальных объектах, являющиеся следствиями тех и только тех их свойств, которые ранее были аксиоматизированы.

После построения математической модели реального явления или процесса встает вопрос об ее адекватности. Иногда ответ на этот вопрос может дать эксперимент. Рассогласование модельных и экспериментальных данных следует интерпретировать как признак неадекватности некоторых из принятых аксиом. Однако для проверки адекватности социальноэкономических моделей зачастую невозможно поставить решающий эксперимент в отличие, скажем, от физических моделей. С другой стороны, для одного и того же явления или процесса, как правило, можно составить много возможных моделей, если угодно, много разновидностей одной базовой модели. Поэтому необходимы какието дополнительные условия, позволяющие из множества возможных моделей и эконометрических методов анализа данных выбрать наиболее подходящие. В качестве одного из подобных условий выдвигается требование устойчивости модели и метода анализа данных относительно допустимых отклонений исходных данных и предпосылок модели или условий применимости метода.

В большинстве случаев исследователей и практических работников интересуют не столько сами модели и методы, сколько решения, которые с их помощью принимаются. Ведь модели и методы для того и разрабатываются, чтобы подготавливать решения. Вместе с тем очевидно, что решения, как правило, принимаются в условиях неполноты информации. Так, любые числовые параметры известны лишь с некоторой точностью. Введение в рассмотрение возможных неопределенностей исходных данных требует какихто заключений относительно устойчивости принимаемых решений по отношению к этим допустимым неопределенностям.

Введем основные понятия согласно монографии [16]. Будем считать, что имеются исходные данные, на основе которых принимаются решения. Способ переработки (отображения) исходных данных в решение назовем моделью. С общей точки зрения модель - это функция, переводящая исходные данные в решение, т. е. способ перехода значения не имеет. Очевидно, любая рекомендуемая для практического использования модель должна быть исследована на устойчивость относительно допустимых отклонений исходных данных. Укажем некоторые возможные применения результатов подобного исследования:

  • заказчик научноисследовательской работы получает представление о точности предлагаемого решения;
  • удается выбрать из многих моделей наиболее адекватную;
  • по известной точности определения отдельных параметров модели удается указать необходимую точность нахождения остальных параметров;
  • переход к случаю "общего положения" позволяет получать более сильные с математической точки зрения результаты.

Примеры. По каждому из четырех перечисленных возможных применений в [16, 18] приведены различные примеры. В прикладной статистике точность предлагаемого решения связана с разбросом исходных данных и с объемом выборки. Выбору наиболее адекватной модели посвящены многие рассмотрения в монографии по прикладной статистике [19], связанные с обсуждением моделей однородности и регрессии. Использование рационального объема выборки в статистике интервальных данных исходит из принципа уравнивания погрешностей. Этот принцип основан на том, что по известной точности определения отдельных параметров модели удается указать необходимую точность нахождения остальных параметров. Другой пример применения принципа уравнивания погрешностей - нахождение необходимой точности оценивания параметров в моделях логистики, рассмотренных в главе 5 монографии [16]. Наконец, переходом к случаю "общего положения" в прикладной статистике является переход к непараметрическим методам. Он необходим из-за невозможности обосновать принадлежность результатов наблюдений к тем или иным параметрическим семействам.

Специалисты по математическому моделированию и теории управления считают устойчивость одной из важных характеристик технических, социальноэкономических, медицинских и иных моделей. Достаточно глубокие исследования ведутся по ряду направлений.

Первоначальное изучение влияния малого изменения одного параметра обычно называют анализом чувствительности. Оно описывается значением частной производной. Если модель задается дифференцируемой функцией, итог анализа чувствительности - вектор значений частных производных в анализируемой точке.

Теория устойчивости решений дифференциальных уравнений развивается по крайней мере с XIX в. [20]. Выработаны соответствующие понятия - устойчивость по Ляпунову, корректность, доказаны глубокие теоремы. Для решения некорректных задач академиком АН СССР А.Н. Тихоновым в начале 1960-х гг. предложен метод регуляризации. Модели явлений и процессов, выражаемые с помощью дифференциальных уравнений, могут быть исследованы на устойчивость путем применения хорошо разработанного математического аппарата.

Вопросы устойчивости изучались практически во всех направлениях прикладных математических методов - и в математическом программировании, и в теории массового обслуживания (теории очередей), и в экологоэкономических моделях, и в различных областях эконометрики.

Общая схема устойчивости. Прежде чем переходить к конкретным постановкам, обсудим "общую схему устойчивости", дающую понятийную базу для обсуждения проблем устойчивости в различных предметных областях.

Определение 1. Общей схемой устойчивости называется объект \{A,B,d,f,E\}.

Здесь A - множество, интерпретируемое как пространство исходных данных; B - множество, называемое пространством решений. Однозначное отображение f:A \to B называется моделью. Об этих трех составляющих общей схемы устойчивости уже шла речь выше.

Оставшиеся два понятия нужны для уточнения понятий близости в пространстве исходных данных и пространстве решений. Подобные уточнения могут быть сделаны разными способами. Самое "слабое" уточнение - на языке топологических пространств. Тогда возможны качественные выводы (сходится - не сходится), но не количественные расчеты. Самое "сильное" уточнение - на языке метрических пространств. Промежуточный вариант - используются показатели различия (отличаются от метрик тем, что необязательно выполняются неравенства треугольника) или вводимые ниже понятия.

Пусть d -показатель устойчивости, т. е. неотрицательная функция, определенная на подмножествах Y множества B и такая, что из Y_{1} \subseteq Y_{2} вытекает d(Y_{1}) \le  d(Y_{2}). Часто показатель устойчивости d(Y) определяется с помощью метрики, псевдометрики или показателя различия (меры близости) \rho как диаметр множества Y, т. е.

d(Y) = sup{\rho(y_{1},y_{2}),y_{1} \in Y,y_{2} \in Y}.

Таким образом, говоря попросту, в пространстве решений с помощью показателя устойчивости вокруг образа исходных данных может быть сформирована система окрестностей. Но сначала надо такую систему сформировать в пространстве исходных данных.

Пусть Е = \{E(x,а),x\in A, \alpha \in \Theta\} - совокупность допустимых отклонений. Т. е. система подмножеств множества A такая, что каждому элементу множества исходных данных x \in A и каждому значению параметра а из некоторого множества параметров \theta соответствует подмножество E(x,\alpha) множества исходных данных. Оно называется множеством допустимых отклонений в точке x при значении параметра, равном а . Наглядно можно представить себе, что вокруг точки x взята окрестность радиуса \alpha.

Определение 2. Показателем устойчивости в точке x при значении параметра, равном \alpha, называется число

\beta(x,E(x,\alpha)) = d(f(E(x,\alpha)).

Другими словами, это - диаметр образа множества допустимых колебаний при рассматриваемом в качестве модели отображении. Очевидно, что этот показатель устойчивости зависит как от исходных данных, так и от диаметра множества возможных отклонений в исходном пространстве. Для непрерывных функций показатель устойчивости обычно называется модулем непрерывности.

Естественно посмотреть, насколько сузится образ окрестности возможных отклонений при максимально возможном сужении этой окрестности.

Определение 3. Абсолютным показателем устойчивости в точке х называется число

\beta(x, E) = inf\{\beta(x, E(x, \alpha), \alpha \in \Theta\}.

Если функция f непрерывна, а окрестности - именно те, о которых идет речь в математическом анализе, то максимальное сужение означает сужение к точке и абсолютный показатель устойчивости равен 0. Но в теории измерений и статистике интервальных данных мы сталкиваемся с совсем иными ситуациями. В теории измерений окрестностью исходных данных являются все те вектора, что получаются из исходного путем преобразования координат с помощью допустимого преобразования шкалы, а допустимое преобразование шкалы берется из соответствующей группы допустимых преобразований. В статистике интервальных данных под окрестностью исходных данных естественно понимать - при описании выборки - куб с ребрами 2\Delta и центром в исходном векторе. И в том, и в другом случае максимальное сужение не означает сужение к точке.

Естественным является желание ввести характеристики устойчивости на всем пространстве. Не вдаваясь в математические тонкости (см. о них монографию [16]), рассмотрим меру \mu на пространстве A такую, что мера всего пространства равна 1 (т. е. \mu(A) = 1 ).

Определение 4. Абсолютным показателем устойчивости на пространстве исходных данных А по мере \mu называется число

\gamma(h) = \int\limits_{A}\beta(x,E)d\mu

Здесь имеется в виду интеграл Лебега. Интегрирование проводится по (абстрактному) пространству исходных данных А по мере \mu. Естественно, должны быть выполнены некоторые внутриматематические условия. Читателю, не знакомому с интегрированием по Лебегу, достаточно мысленно заменить в предыдущей формуле интеграл на сумму (а пространство А считать конечным, хотя и состоящим из большого числа элементов).

Определение 5. Максимальным абсолютным показателем устойчивости называется

\gamma = sup\{\beta(x,E),x \in A\}.

Легко видеть, что \gamma = sup \gamma(\mu), где супремум берется по всем описанным выше мерам.

Итак, построена иерархия показателей устойчивости математических моделей реальных явлений и процессов. Она с успехом использовалась в различных исследованиях, подробно развивалась, в частности, в монографии [16]. Приведем еще одно полезное определение.

Определение 6. Модель f называется абсолютно \varepsilon -устойчивой, если \gamma \le \varepsilon, где \gamma - максимальный абсолютный показатель устойчивости.

Пример. Если показатель устойчивости формируется с помощью метрики \rho, совокупность допустимых отклонений Е - это совокупность всех окрестностей всех точек пространства исходных данных A, то 0-устойчивость модели f эквивалентна непрерывности модели f на множестве A.

Основная проблема в общей схеме устойчивости - проверка \varepsilon -устойчивости данной модели f относительно данной системы допустимых отклонений E.

Часто оказываются полезными следующие два обобщения основной проблемы.

Проблема А (характеризации устойчивых моделей). Даны пространство исходных данных A, пространство решений B, показатель устойчивости d, совокупность допустимых отклонений Е и неотрицательное число \varepsilon. Описать достаточно широкий класс \varepsilon -устойчивых моделей f. Или: найти все \varepsilon устойчивые модели среди моделей, обладающих данными свойствами, т. е. входящих в данное множество моделей.

Проблема Б (характеризации систем допустимых отклонений). Даны пространство исходных данных A, пространство решений B, показатель устойчивости d, модель f и неотрицательное число \varepsilon. Описать достаточно широкий класс систем допустимых отклонений Е, относительно которых модель f является \varepsilon -устойчивой. Или: найти все такие системы допустимых отклонений Е среди совокупностей допустимых отклонений, обладающих данными свойствами, т. е. входящих в данное множество совокупностей допустимых отклонений.

Ясно, что проблемы А и Б можно рассматривать не только для показателя устойчивости \gamma, но и для других только что введенных показателей устойчивости, а именно,

\gamma(\mu),\beta(x,E),\beta(x,E(x,\alpha)).

Язык общей схемы устойчивости позволяет описывать конкретные задачи специализированных теорий устойчивости в различных областях исследований, выделять основные элементы в них, ставить проблемы типа А и Б. В частности, на этом языке легко формулируются задачи теории устойчивости решений дифференциальных уравнений, теории робастности статистических процедур, проблемы адекватности теории измерений, достигаемой точности расчетов в статистике интервальных данных и в логистике (см. монографию [16]), и т. д.

Для примера рассмотрим определение устойчивости по Ляпунову решения \phi(t,x) нормальной автономной системы дифференциальных уравнений \dot y = g(y) с начальными условиями \phi(0,x) = x. Здесь пространство исходных данных A - конечномерное евклидово пространство, множество допустимых отклонений E(x, A) - окрестность радиуса A точки x \in A, пространство решений B - множество функций на луче [0;+\infty) с метрикой

\rho(y _{1}, y _{2}) = sup_{t\ge 0}| y _{1}( t )-y _{2}( t )|. ( t )|)

Модель f - отображение, переводящее начальные условия х в решение системы дифференциальных уравнений с этими начальными условиями \rho(t,x).

В терминах общей схемы устойчивости положение равновесия а называется устойчивым по Ляпунову, если \beta(a,E) = 0. Для формулировки определения асимптотической устойчивости по Ляпунову надо ввести в пространстве решений В псевдометрику

\rho_{1}( y _{1}, y _{2})  = \overline{\lim}\limits_{t\to\infty} | y _{1}( t )-y _{2} ( t )|. ( t )|)

Положение равновесия а называется асимптотически устойчивым, если \beta_{1}(a,E(a,\varеpsilon)) = 0 для некоторого \varеpsilon \ge 0, где показатель устойчивости \beta рассчитан с использованием псевдометрики \rho_{1}.

Таким образом, общая схема устойчивости естественным образом включает в себя классические понятия теории устойчивости по Ляпунову. Вместе с тем стоит отметить, что эта схема дает общий подход к различным проблемам устойчивости. Она дает систему понятий, которые в каждом конкретном случае должны приспосабливаться к решаемой задаче.

До настоящего момента для определенности речь шла о допустимых отклонениях в пространстве исходных данных. Часто оказывается необходимым говорить и об отклонениях от предпосылок модели. С чисто формальной точки зрения для этого достаточно расширить понятие "исходные данные" до пары (x, f), т. е. включив "прежнюю" модель в качестве второго элемента пары. Все остальные определения остаются без изменения. Теперь отклонения в пространстве решений вызываются не только отклонениями в исходных данных x, но и отклонениями от предпосылок модели, т. е. отклонениями f.

Устойчивость по отношению к объему выборки. Различные асимптотические постановки в прикладной статистике также естественно рассматривать как задачи устойчивости. Если при безграничном возрастании объема выборки некоторая величина стремится к пределу, то в терминах общей схемы устойчивости это означает, что она 0-устойчива в соответствующей псевдометрике (см. выше обсуждение асимптотической устойчивости по Ляпунову). С содержательной точки зрения употребление термина "устойчивость" в такой ситуации представляется вполне оправданным, поскольку рассматриваемая величина мало меняется при изменении объема выборки.

Рассмотрим проблему и методы оценки близости предельных распределений статистик и распределений, соответствующих конечным объемам выборок. При каких объемах выборок уже можно пользоваться предельными распределениями? Каков точный смысл термина "можно" в предыдущей фразе? Основное внимание уделяется переходу от точных формул допредельных распределений к пределу и применению метода статистических испытаний (Монте-Карло).

Начнем с обсуждения взаимоотношений асимптотической математической статистики и практики анализа статистических данных. Как обычно подходят к обработке реальных данных в конкретной задаче? Первым делом строят статистическую модель. Если хотят перенести выводы с совокупности результатов наблюдений на более широкую совокупность, например, предсказать чтолибо, то рассматривают, как правило, вероятностностатистическую модель. Например, традиционную модель выборки, в которой результаты наблюдений - реализации независимых (в совокупности) одинаково распределенных случайных величин. Очевидно, любая модель лишь приближенно соответствует реальности. В частности, естественно ожидать, что распределения результатов наблюдений несколько отличаются друг от друга, а сами результаты связаны между собой, хотя и слабо.

Итак, первый этап - переход от реальной ситуации к математической модели. Далее - неожиданность: на настоящем этапе своего развития математическая теория статистики зачастую не позволяет провести необходимые исследования для имеющихся объемов выборок. Более того, отдельные математики пытаются оправдать свой отрыв от практики соображениями о структуре этой теории, на первый взгляд убедительными. Неосторожная давняя фраза Б.В. Гнеденко и А.Н. Колмогорова: "Познавательная ценность теории вероятностей раскрывается только предельными теоремами" (см. классическую монографию [4], одну из наиболее ценных математических книг ХХ в.) взята на вооружение и более близкими к нам по времени авторами. Так, И.А. Ибрагимов и Р.З. Хасьминский пишут: "Решение неасимптотических задач оценивания, хотя и весьма важное само по себе, как правило, не может являться объектом достаточно общей математической теории. Более того, соответствующее решение часто зависит от конкретного типа распределения, объема выборки и т. д. Так, теория малых выборок из нормального закона будет отличаться от теории малых выборок из закона Пуассона" [6, с. 7].

Согласно цитированным и подобным им авторам, основное содержание математической теории статистики - предельные теоремы, полученные в предположении, что объемы рассматриваемых выборок стремятся к бесконечности. Эти теоремы опираются на предельные соотношения теории вероятностей типа Закона Больших Чисел и Центральной Предельной Теоремы. Подобные утверждения относятся к математике, т. е. к сфере чистой абстракции, и не могут быть непосредственно применены для анализа реальных данных. Их практическое использование, о котором "чистые" математики предпочитают не думать, опирается на важное предположение: "При данном объеме выборки достаточно точными являются асимптотические формулы".

Конечно, в качестве первого приближения представляется естественным воспользоваться асимптотическими формулами. Но это - лишь начало долгой цепи исследований. Как же обычно преодолевают разрыв между результатами асимптотической математической статистики и потребностями практики статистического анализа данных? Какие "подводные камни" подстерегают на этом пути?

Точные формулы и асимптотика. Начнем с наиболее продвинутой в математическом плане ситуации, когда для статистики известны как предельное распределение, так и распределения при конечных объемах выборки.

Примером является двухвыборочная односторонняя статистика Н.В. Смирнова. Рассмотрим две независимые выборки объемов m и n из непрерывных функций распределения F(x) и G(x) соответственно. Для проверки гипотезы однородности двух выборок H_{0}: F(x) = G(x) для всех действительных чисел x в 1939 г. Н.В. Смирнов в статье [22]

предложил использовать статистику

D^+ (m,n) = sup (F_m(x) - G_n(x)),

где F_m(x) - эмпирическая функция распределения, построенная по первой выборке, G_n(x) - эмпирическая функция распределения, построенная по второй выборке, супремум берется по всем действительным числам x. Для обсуждения проблемы соотношения точных и предельных результатов ограничимся случаем равных объемов выборок, т. е. m = n. Положим

H(n,t) = P(D^+ (n,n) \ge \cfrac{t}{\sqrt{n}})

В цитированной статье [22] Н.В. Смирнов установил, что при безграничном возрастании объема выборки n вероятность H ( n, t) стремится к exp (- t^{2}).

В работе [5] 1951 г. Б.В. Гнеденко и В.С. Королюк показали, что при целом c = t\sqrt{n} (именно при таких t вероятность H ( n, t) как функция t имеет скачки, поскольку статистика Смирнова D^+ (n,n) кратна 1/n ) рассматриваемая вероятность H ( n, t) выражается через биномиальные коэффициенты, а именно,

H(n,t) = 
\left ( \begin{array}{c} 2n \\ n-c \end{array} \right )
/
\left ( \begin{array}{c} 2n \\ n   \end{array} \right ). ( 8.36)

К сожалению, непосредственные расчеты по формуле (8.36) возможны лишь при сравнительно небольших объемах выборок, поскольку величина n! ( n -факториал) уже при n = 100 имеет более 200 цифр и не может быть без преобразований использована в вычислениях. Следовательно, наличие точной формулы для интересующей нас вероятности не снимает необходимости использования предельного распределения и изучения точности приближения с его помощью.

Широко известная формула Стирлинга для гаммафункции и, в частности, для факториалов позволяет преобразовать последнее выражение в асимптотическое разложение. То есть построить бесконечный степенной ряд (по степеням n ), такой, что каждая следующая частичная сумма дает все более точное приближение для интересующей нас вероятности H(x, t). Это сделано в работе А.А. Боровкова 1962 г. Большое количество подобных разложений для различных статистических задач приведено в работах В.М. Калинина и О.В. Шалаевского конца 1960-х - начала 1970-х гг. (Интересно отметить, что асимптотические разложения в ряде случаев расходятся, т.е. остаточные члены имеют нетривиальную природу.)

Затем в работах конца семидесятых годов сделана попытка теоретически оценить остаточный член второго порядка. Итоги подведены в монографии [16, §2.2, с.37-45]. Справедливо равенство

H ( n, t) = exp ( - t ^{2}).(1 + f( t)/n + g(n,t)/ n^{2}),

где

f(t) = t^{2} (1/2 - t^{2}/6).

Целью последних из названных работ было получение равномерных по n, t оценок остаточного члена второго порядка g(n,t) сверху и снизу в области, задаваемой условиями

0 < \cfrac{t}{\sqrt{n}} < A,    0 < t < t_{max},
\text{    },
n \ge n_{0}. ( 8.37)

где A, t _{max}, n_{0} - некоторые параметры. С помощью длинных цепочек оценок остаточных членов в формулах, получаемых при преобразовании формулы (8.36) к предельному виду, сформулированная выше цель была достигнута. Для различных наборов параметров A, t _{max}, n_{0} получены равномерные по n, t оценки (сверху и снизу) остаточного члена второго порядка g(n,t) в области (8.37). Так, например, при А = 0,5, t_{max} = 1,73, n_{0}= 8 нижняя граница равна ( -0,71 ), а верхняя есть 2,65. Основные недостатки такого подхода:

  • зависимость оценок от параметров A, t_{max}, n_{0}, задающих границы областей;
  • завышение оценок, иногда в сотни раз, обусловленное желанием получить равномерные оценки по области (оценкой реальной погрешности в конкретной точке является значение следующего члена асимптотического разложения).

Поэтому при составлении рассчитанной на практическое использование методики [15] проверки однородности двух выборок с помощью статистики Смирнова было решено перейти на несколько другую методологию (назовем ее "методологией заданной точности"), которую кратко можно описать следующим образом:

  1. выбирается достаточно малое положительное число р, например р = 0,05 или р = 0,20 ;
  2. приводятся точные значения H(n, t) для всех значений n таких, что |H(n, t) - exp( - t^{2})| > p \exp( - t^{2});
  3. если же последнее неравенство не выполнено, то используется вместо H(n, t) предельное значение \exp(-t^{2}).

Принятая в методике [15] методология предполагает интенсивное использование вычислительной техники. Результатами расчетов являются граничные значения объемов выборок n(p,t) такие, что при меньших значениях объемов выборок рекомендуется пользоваться точными значениями функции распределения статистики Смирнова, а при больших - предельными. Описывается этот результат таблицей, а не формулой. При построении реальных таблиц не обойтись без выбора того или иного конкретного значения р, задающего объемы таблиц.

Оценки скорости сходимости. Теоретические оценки скорости сходимости в различных задачах прикладной математической статистики иногда формулируются в весьма абстрактном виде. Так, в 1960-1970-х гг. была популярна задача оценки скорости сходимости распределения классической статистики омегаквадрат (Крамера-Мизеса-Смирнова).

Для максимума модуля разности допредельной и предельной функций распределения

этой статистики различные авторы доказывали, что для любого e \ge 0 существует константа С(e), такая, что он не превосходит С(e)n^{-w+e }. Прогресс состоял в увеличении константы w. Сформулированный выше результат был доказан последовательно для w = 1/10, 1/6,
1/5, 1/4, 1/3, 1/2 \text{ и } 1 [16].

Конечно, все эти исследования не могли дать конкретных практических рекомендаций. Однако необходимой исходной точкой является само существование предельного распределения. Представим себе, что некто, не зная, что у распределения Коши нет математического ожидания, моделирует выборочные средние арифметические результатов наблюдений из этого распределения. Ясно, что его попытки оценить скорость сходимости выборочных средних к пределу обречены на провал.

Последовательное улучшение теоретических оценок скорости сходимости дает надежду на быструю реальную сходимость. Действительно, численные расчеты показали, что предельным распределением для статистики омегаквадрат (Крамера-Мизеса-Смирнова) можно пользоваться уже при объеме выборки, равном 4.

Использование датчиков псевдослучайных чисел. Если же предельное распределение известно, то возникает возможность изучить скорость сходимости численно методом статистических испытаний (Монте-Карло). Однако при этом обычно возникают две проблемы.

Во-первых, откуда известно, что скорость сходимости монотонна? Если при данном объеме выборки различие мало, то будет ли оно мало и при дальнейших объемах? Иногда отклонения допредельного распределения от предельного объясняются довольно сложными причинами. Так, для распределения хиквадрат они связаны с рядом до сих пор не решенных теоретикочисловых проблем о числе целых точек в эллипсоиде растущего диаметра.

Во-вторых, с помощью датчиков псевдослучайных чисел получаем допредельные распределения с погрешностью, которая может преуменьшать различие. Поясним мысль аналогией. Растущий сигнал измеряется с погрешностями. Когда можно гарантировать, что его величина наверняка превзошла заданную границу?

Напомним, что проблема качества датчиков псевдослучайных чисел продолжает оставаться открытой (см. главу 11 в [18]). Для моделирования в пространствах фиксированной размерности датчики псевдослучайных чисел решают поставленные задачи. Но для рассматриваемых здесь задач размерность не фиксирована - мы не знаем, при каком конкретно объеме выборки можно переходить к предельному распределению согласно "методологии заданной точности".

Нужны дальнейшие работы по изучению качества датчиков псевдослучайных чисел в задачах неопределенной размерности. Поскольку критиков датчиков обычно обвиняют в том, что они сами их не используют, отметим, что мы применяли этот инструментарий при изучении помех, создаваемых электровозами (см. монографию [16]), при изучении статистических критериев проверки однородности двух выборок (см. работу [9]).

А нужна ли вообще асимптотика? В настоящее время развивается актуальное направление прикладной статистики, связанное с интенсивным использованием вычислительной техники для изучения свойств статистических процедур. Как уже отмечалось, математические методы в статистике обычно позволяют получать лишь асимптотические результаты, и для переноса выводов на конечные объемы выборок приходится применять вычислительные методы. Например, в Новосибирском государственном техническом университете разработан и активно применяется подход, основанный на интенсивном использовании современной вычислительной техники. Основная идея такова: в качестве альтернативы асимптотическим методам математической статистики используется анализ результатов статистического моделирования (порядка 2000 испытаний) выборок конкретных объемов (200, 500, 1000). При этом анализ предельных распределений заменяется на анализ распределений соответствующих статистик при указанных объемах выборок.

К достоинствам этого подхода относится возможность замены теоретических исследований расчетами. Разработанная программная система дает (в принципе) возможность численно изучить свойства любого статистического алгоритма для любого конкретного распределения результатов наблюдений и любого конкретного объема выборки. Недостатки рассматриваемого подхода: зависимость от свойств датчиков псевдослучайных чисел; неизвестность предельного распределения (и даже самого факта его существования), а потому невозможность обоснованного переноса полученных выводов на объемы выборок, отличные от исследованных. Поэтому с точки зрения теории математической статистики полученные рассматриваемым способом результаты следует рассматривать как правдоподобные (а не доказательные, как в классической математической статистике).

Кроме того, они принципиально неточные. Даже в наиболее благоприятных условиях отклонение (в метрике "супремум разности") смоделированного распределения, построенного по 2000 испытаниям, от теоретического предельного распределения может достигать 1,358 (1/2000)^{1/2} = 0,030. Это означает, что процентные точки, соответствующие уровням значимости 0,05 и особенно 0,01, могут сильно отличаться от соответствующих процентных точек предельных распределений. Очевидно, следующий этап работ - изучение точности полученных в рассматриваемом подходе выводов, прежде всего приближений и процентных точек.

Весьма полезными и интересными являются результаты, касающиеся непараметрических критериев согласия и построения оптимального группирования, в частности, при использовании критериев типа хиквадрат.

В работе [11] сравниваются два плана контроля надежности технических изделий. Оказывается, что при объемах выборки, меньших 150, лучше первый план, а при объемах, больших 150 - второй. Значит, если бы по новосибирскому методу сравнивались эти планы при достаточно большом объеме выборки n=100, то лучшим был бы признан первый план, что неверно - наступит момент (объем выборки), когда лучшим станет второй план.

Другая относящаяся к делу ассоциация - из весьма содержательной монографии о прикладной математике [2]. Будем суммировать бесконечный ряд с членами z_n= 1 / n. Поскольку члены его убывают, то обычно используемые алгоритмы остановят вычисления на какомто шагу. А сумма-то - бесконечна!

Кажется, что компьютер дал универсальную отмычку ко всем проблемам вообще и в области прикладной статистики в частности. Но это только кажется.

Принцип уравнивания погрешностей: погрешности различной природы должны вносить примерно одинаковый вклад в общую погрешность математической модели. Так, определение рационального объема выборки в статистике интервальных данных основано на уравнивании влияния метрологической и статистической погрешностей. Согласно подходу [16], выбор числа градаций в социологических анкетах целесообразно проводить на основе уравнивания погрешностей квантования и неопределенности в ответах респондентов. В классической модели управления запасами целесообразно уравнять влияние неточностей в определении параметров на отклонение целевой функции от оптимума. Из принципа уравнивания погрешностей следует, что относительные погрешности определения параметров модели должны совпадать. Погрешность, порожденная отклонением спроса от линейного, оценивается по данным об отпуске товаров. Это дает возможность оценить допустимые отклонения для других параметров. В частности, установить, что ра схождения между методиками не являются существенными [16].

В терминах общей схемы устойчивости рассмотрим для простоты записи случай двух параметров. Пусть A = [0, \infty ) \times [0,\infty ) и E(x, \alpha) = E(x, (\varepsilon , \delta )), где \varepsilon  >  0 и \delta  > 0 задают точность определения соответствующих параметров, так что E (x,(\varepsilon_{1},\delta_{1})) с E(x,(\varepsilon_{2}, \delta_{2})) при \varepsilon_{1} \le  \varepsilon _{2}, \delta_{1}\le \delta_{2}. Пусть \varepsilon задано, а \delta исследователь может выбрать, причем известно, что уменьшение \delta связано с увеличением расходов. Как выбирать \delta? Представляется естественным "уравнять" отклонения, порожденные различными параметрами, т. е. определить \delta из условия

\beta (x, E(x, (\varepsilon , \delta  )) - \beta (x, E(x, (\varepsilon , 0)) \approx \beta (x, E(x, (0, \delta )). ( 8.38)

Если затраты и полезный эффект точно известны, то \delta можно определить путем решения соответствующей оптимизационной задачи. В противном случае соотношение (8.38) предлагается использовать в качестве эвристического правила.

< Лекция 7 || Лекция 8: 123456789101112
Михаил Агапитов
Михаил Агапитов
ВКР
Подобед Александр
Подобед Александр
Как оплатить обучение?
Евгений Кайгородов
Евгений Кайгородов
Россия
Роман Пархоменко
Роман Пархоменко
Россия, Sankt Piterburg, 182, 1997