НОУ ИНТУИТ | Прикладная статистика. Лекция 2: Основы вероятностно-статистических методов описания неопределенностей

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 09.11.2009 | Уровень: для всех | Доступ: свободно

|

Вам нравится? Нравится 61 студенту

| Поделиться |

Поддержать программу

В дисперсионном анализе разработаны методы проверки подобных гипотез. Теория дисперсионного анализа и расчетные формулы рассмотрены в специальной литературе [ [ 2.6 ] ].

Гипотезу H_0 проверяют против альтернативной гипотезы H_1 , согласно которой хотя бы одно из указанных равенств не выполнено. Проверка этой гипотезы основана на следующем "разложении дисперсий", указанном Р.А.Фишером:

$(kn)s^2=n\sum_{j=1}^k s^2(j)+(kn)s_1^2,$

( 7)

где

- выборочная дисперсия в объединенной выборке, т.е.

$s^2=\frac{1}{kn}\sum_{i=1}^n\sum_{j=1}^k(x_i(j)-\overline{x})^2,\overline{x}=\frac{1}{kn}\sum_{i=1}^n\sum_{j=1}^k x_i(j).$

Далее, s^2(j) - выборочная дисперсия в -ой группе, s^2(j)=\frac{1}{n}\sum_{i=1}^n(x_i(j)-\overline{x}(j))^2,\overline{x}(j)=\frac{1}{n}\sum_{i=1}^n x_i(j),j=1,2,...,k.

Таким образом, первое слагаемое в правой части формулы (7) отражает внутригрупповую дисперсию. Наконец, s_1^2 - межгрупповая дисперсия,

$s_1^2=\frac{1}{k}\sum_{j=1}^k(\overline{x}(j)-\overline{x})^2.$

Область прикладной статистики, связанную с разложениями дисперсии типа формулы (7), называют дисперсионным анализом. В качестве примера задачи дисперсионного анализа рассмотрим проверку приведенной выше гипотезы H_0 в предположении, что результаты измерений независимы и в каждой выборке имеют нормальное распределение $N(m(j),\sigma^2)$ с одной и той же дисперсией. При справедливости H_0 первое слагаемое в правой части формулы (7), деленное на $\sigma^2$ , имеет распределение хи-квадрат с k(n-1) степенями свободы, а второе слагаемое, деленное на $\sigma^2$ , также имеет распределение хи-квадрат, но с (k-1) степенями свободы, причем первое и второе слагаемые независимы как случайные величины. Поэтому случайная величина

$F=\frac{k(n-1)}{k-1}\:\frac{(kn)s_1^2}{n\sum\limits_{j=1}^k s^2(j)} =\frac{k^2(n-1)s_1^2}{(k-1)\sum\limits_{j=1}^k s^2(j)}$

имеет распределение Фишера с (k-1)

степенями свободы числителя и k(n-1)

степенями свободы знаменателя. Гипотеза H_0

принимается, если $F\le F_{1-\alpha}$ , и отвергается в противном случае, где $F_{1-\alpha}$ - квантиль порядка $1-\alpha$ распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при H_1

величина

безгранично увеличивается при росте объема выборок

. Значения $F_{1-\alpha}$ берут из соответствующих таблиц [ [ 2.1 ] ].

Разработаны непараметрические методы решения классических задач дисперсионного анализа [ [ 2.21 ] ], в частности, проверки гипотезы H_0 .

Следующий тип задач многомерного статистического анализа - задачи классификации. Они, согласно [ [ 2.6 ] , [ 2.16 ] ], делятся на три принципиально различных вида - дискриминантный анализ, кластер-анализ, задачи группировки.

Задача дискриминантного анализа состоит в нахождении правила отнесения наблюдаемого объекта к одному из ранее описанных классов. При этом объекты описывают в математической модели с помощью векторов, координаты которых - результаты наблюдения ряда признаков у каждого объекта. Классы описывают либо непосредственно в математических терминах, либо с помощью обучающих выборок. Обучающая выборка - это выборка, для каждого элемента которой указано, к какому классу он относится.

Рассмотрим пример применения дискриминантного анализа для принятия решений в технической диагностике. Пусть по результатам измерения ряда параметров продукции необходимо установить наличие или отсутствие дефектов. В этом случае для элементов обучающей выборки указаны дефекты, обнаруженные в ходе дополнительного исследования, например, проведенного после определенного периода эксплуатации. Дискриминантный анализ позволяет сократить объем контроля, а также предсказать будущее поведение продукции. Дискриминантный анализ сходен с регрессионным - первый позволяет предсказывать значение качественного признака, а второй - количественного. В статистике объектов нечисловой природы разработана математическая схема, частными случаями которой являются регрессионный и дискриминантный анализы [ [ 2.15 ] ].

Кластерный анализ применяют, когда по статистическим данным необходимо разделить элементы выборки на группы. Причем два элемента группы из одной и той же группы должны быть "близкими" по совокупности значений измеренных у них признаков, а два элемента из разных групп должны быть "далекими" в том же смысле. В отличие от дискриминантного в кластер-анализе классы не заданы, а формируются в процессе обработки статистических данных. Например, кластер-анализ может быть применен для разбиения совокупности марок стали (или марок холодильников) на группы сходных между собой.

Другой вид кластер-анализа - разбиение близких между собой признаков на группы. Показателем близости признаков может служить выборочный коэффициент корреляции. Цель кластер-анализа признаков может состоять в уменьшении числа контролируемых параметров, что позволяет существенно сократить затраты на контроль. Для этого из группы тесно связанных между собой признаков (у которых коэффициент корреляции близок к 1 - своему максимальному значению) измеряют значение одного, а значения остальных рассчитывают с помощью регрессионного анализа.

Задачи группировки решают тогда, когда классы заранее не заданы и не обязаны быть "далекими" друг от друга. Примером является группировка студентов по учебным группам. В технике решением задачи группировки часто является параметрический ряд - возможные типоразмеры группируются согласно элементам параметрического ряда. В литературе, нормативно-технических и инструктивно-методических документах по прикладной статистике также иногда используется группировка результатов наблюдений (например, при построении гистограмм).

Задачи классификации решают не только в многомерном статистическом анализе, но и тогда, когда результатами наблюдений являются числа, функции или объекты нечисловой природы. Так, многие алгоритмы кластер-анализа используют только расстояния между объектами. Поэтому их можно применять и для классификации объектов нечисловой природы, лишь бы были заданы расстояния между ними. Простейшая задача классификации такова: даны две независимые выборки, требуется определить, представляют они два класса или один. В одномерной статистике эта задача сводится к проверке гипотезы однородности [ [ 2.16 ] ].

Третий раздел многомерного статистического анализа - задачи снижения размерности (сжатия информации). Цель их решения состоит в определении набора производных показателей, полученных преобразованием исходных признаков, такого, что число производных показателей значительно меньше числа исходных признаков, но они содержат возможно большую часть информации, имеющейся в исходных статистических данных. Задачи снижения размерности решают с помощью методов многомерного шкалирования, главных компонент, факторного анализа и др. Например, в простейшей модели многомерного шкалирования исходные данные - попарные расстояния $\rho_{ij},i,j=1,2,...,k,i\ne j$ , между объектами, а цель расчетов состоит в представлении объектов точками на плоскости. Это дает возможность в буквальном смысле слова увидеть, как объекты соотносятся между собой. Для достижения этой цели необходимо каждому объекту поставить в соответствие точку на плоскости так, чтобы попарные расстояния $s_{ij}$ между точками, соответствующими объектам с номерами и , возможно точнее воспроизводили расстояния $\rho_{ij}$ между этими объектами. Согласно основной идее метода наименьших квадратов находят точки на плоскости так, чтобы величина

$\sum_{i=1}^k\sum_{j=1}^k(s_{ij}-\rho_{ij})^2$

достигала своего наименьшего значения. Есть и многие другие постановки задач снижения размерности и визуализации данных.

Статистика случайных процессов и временных рядов. Методы статистики случайных процессов и временных рядов применяют для постановки и решения, в частности, следующих задач:

предсказание будущего развития случайного процесса или временного ряда;
управление случайным процессом (временным рядом) с целью достижения поставленных целей, например, заданных значений контролируемых параметров;
построение вероятностной модели реального процесса, обычно длящегося во времени, и изучение свойств этой модели.

Пример 1. При внедрении статистического регулирования технологического процесса необходимо проверить, что в налаженном состоянии математическое ожидание контролируемого параметра не меняется со временем. Если подобное изменение будет обнаружено, то необходимо установить подналадочное устройство.

Пример 2. Следящие системы, например, входящие в состав автоматизированной системы управления технологическим процессом, должны выделять полезный сигнал на фоне шумов. Это - задача оценивания (полезного сигнала), в то время как в примере 1 речь шла о задаче проверки гипотезы.

Методы статистики случайных процессов и временных рядов описаны в литературе [ [ 2.6 ] , [ 2.16 ] ].

Статистика объектов нечисловой природы. Методы статистики объектов нечисловой природы применяют всегда, когда результаты наблюдений являются объектами нечисловой природы. Например, сообщениями о годности или дефектности единиц продукции; информацией о сортности единиц продукции; разбиениями единиц продукции на группы соответственно значению контролируемых параметров; упорядочениями единиц продукции по качеству или инвестиционных проектов по предпочтительности; фотографиями поверхности изделия, пораженной коррозией, и т.д. Итак, объекты нечисловой природы - это измерения по качественному признаку, множества, бинарные отношения (разбиения, упорядочения и др.) и многие другие математические объекты [ [ 2.16 ] ]. Они используются в различных вероятностно-статистических методах принятия решений. В частности, в задачах управления качеством продукции, а также, например, в медицине и социологии, как для описания результатов приборных измерений, так и для анализа экспертных оценок.

Для описания данных, являющихся объектами нечисловой природы, применяют, в частности, таблицы сопряженности, а в качестве средних величин - решения оптимизационных задач [ [ 2.16 ] ]. В качестве выборочных средних для измерений в порядковой шкале используют медиану и моду, а в шкале наименований - только моду. О методах классификации нечисловых данных говорилось выше.

Для решения параметрических задач оценивания используют оптимизационный подход, метод одношаговых оценок, метод максимального правдоподобия, метод устойчивых оценок. Для решения непараметрических задач оценивания наряду с оптимизационными подходами к оцениванию характеристик используют непараметрические оценки распределения случайного элемента, плотности распределения, функции, выражающей зависимость [ [ 2.16 ] ].

В качестве примера методов проверки статистических гипотез для объектов нечисловой природы рассмотрим критерий "хи-квадрат" (обозначают $\chi^2$ ), разработанный К.Пирсоном для проверки гипотезы однородности (другими словами, совпадения) распределений, соответствующих двум независимым выборкам.

Рассматриваются две выборки объемов n_1 и n_2 , состоящие из результатов наблюдений качественного признака, имеющего градаций. Пусть $m_{1j}$ и $m_{2j}$ - количества элементов первой и второй выборок соответственно, для которых наблюдается -я градация, а $p_{1j}$ и $p_{2j}$ - вероятности того, что эта градация будет принята, для элементов первой и второй выборок, j = 1, 2, ..., k .

Для проверки гипотезы однородности распределений, соответствующих двум независимым выборкам,

$H_0:p_{1j}=p_{2j},j=1,2,...,k,$

применяют критерий $\chi^2$ (хи-квадрат) со статистикой

$X^2=n_1 n_2\sum_{j=1}^k\frac{1}{m_{1j}+m_{2j}} \left( \frac{m_{1j}}{n_1}-\frac{m_2j}{n_2}^2. \right)$

Установлено [ , ], что статистика X^2 при больших объемах выборок n_1 и n_2 имеет асимптотическое распределение хи-квадрат с (k-1) степенью свободы.

Таблица 2.6. Распределения плавок стали по процентному содержанию серы
Содержание серы, в %	Число плавок
Содержание серы, в %	Завод А	Завод Б
0,00 $\div$ 0,02	82	63
0,02 $\div$ 0,04	535	429
0,04 $\div$ 0,06	1173	995
0,06 $\div$ 0,08	1714	1307

Пример 3. В табл.2.6 приведены данные о содержании серы в углеродистой стали, выплавляемой двумя металлургическими заводами. Проверим, можно ли считать распределения примеси серы в плавках стали этих двух заводов одинаковыми.

Расчет по данным табл.2.6 дает X^2 = 3,39 . Квантиль порядка 0,95 распределения хи-квадрат с k - 1 = 3 степенями свободы равна $\chi_{0,95}^2(3)=7,8$ , а потому гипотезу о совпадении функций распределения содержания серы в плавках двух заводов нельзя отклонить, т.е. ее следует принять (на уровне значимости $\alpha = 0,05$ ).

Подробнее методы статистики объектов нечисловой природы рассмотрены в третьей части учебника.

Выше дано лишь краткое описание содержания прикладной статистики на современном этапе. Подробное изложение конкретных методов содержится в дальнейших лекциях учебника и в специальной литературе.

Дальше >>

Авторизоваться

Прикладная статистика

Основы вероятностно-статистических методов описания неопределенностей

Вопросы и ответы