Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3659 / 734 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 2:

Основы вероятностно-статистических методов описания неопределенностей

2.6. Некоторые типовые задачи прикладной статистики и методы их решения

Статистические данные и прикладная статистика. Под прикладной статистикой понимают часть математической статистики, посвященную методам обработки реальных статистических данных, а также методы сбора данных, соответствующее математическое и программное обеспечение. Таким образом, чисто математические задачи не включают в прикладную статистику.

Под статистическими данными понимают числовые или нечисловые значения контролируемых параметров (признаков) исследуемых объектов, которые получены в результате наблюдений (измерений, анализов, испытаний, опытов и т.д.) определенного числа признаков, у каждой единицы, вошедшей в исследование. Способы получения статистических данных и объемы выборок устанавливают, исходя из постановок конкретной прикладной задачи на основе методов математической теории планирования эксперимента.

Результат наблюдения x_i исследуемого признака X (или совокупности исследуемых признаков X ) у i -й единицы выборки отражает количественные и/или качественные свойства обследованной единицы с номером i (здесь i = 1, 2, ..., n, где n - объем выборки). Деление прикладной статистики на направления соответственно виду обрабатываемых результатов наблюдений (т.е. на статистику случайных величин, многомерный статистический анализ, статистику временных рядов и статистику объектов нечисловой природы) обсуждалось выше.

Результаты наблюдений x_1, x_2,..., x_n, где x_i - результат наблюдения i -ой единицы выборки, или результаты наблюдений для нескольких выборок, обрабатывают с помощью методов прикладной статистики, соответствующих поставленной задаче. Используют, как правило, аналитические методы, т.е. методы, основанные на численных расчетах (объекты нечисловой природы при этом описывают с помощью чисел). В отдельных случаях допустимо применение графических методов (визуального анализа).

Количество разработанных к настоящему времени методов обработки данных весьма велико. Они описаны в сотнях тысяч книг и статей, а также в стандартах и других нормативно-технических и инструктивно-методических документах.

Многие методы прикладной статистики требуют проведения трудоемких расчетов, поэтому для их реализации необходимо использовать компьютеры. Программы расчетов на ЭВМ должны соответствовать современному научному уровню. Однако для единичных расчетов при отсутствии соответствующего программного обеспечения успешно используют микрокалькуляторы.

Задачи статистического анализа точности и стабильности технологических процессов и качества продукции. Статистические методы используют, в частности, для анализа точности и стабильности технологических процессов и качества продукции. Цель - подготовка решений, обеспечивающих эффективное функционирование технологических единиц и повышение качества и конкурентоспособности выпускаемой продукции. Статистические методы следует применять во всех случаях, когда по результатам ограниченного числа наблюдений требуется установить причины улучшения или ухудшения точности и стабильности технологического оборудования. Под точностью технологического процесса понимают свойство технологического процесса, обусловливающее близость действительных и номинальных значений параметров производимой продукции. Под стабильностью технологического процесса понимают свойство технологического процесса, обусловливающее постоянство распределений вероятностей для его параметров в течение некоторого интервала времени без вмешательства извне.

Целями применения статистических методов анализа точности и стабильности технологических процессов и качества продукции на стадиях разработки, производства и эксплуатации (потребления) продукции являются, в частности:

  • определение фактических показателей точности и стабильности технологического процесса, оборудования или качества продукции;
  • установление соответствия качества продукции требованиям нормативно-технической документации;
  • проверка соблюдения технологической дисциплины;
  • изучение случайных и систематических факторов, способных привести к появлению дефектов;
  • выявление резервов производства и технологии;
  • обоснование технических норм и допусков на продукцию;
  • оценка результатов испытаний опытных образцов при обосновании требований к продукции и нормативов на нее;
  • обоснование выбора технологического оборудования и средств измерений и испытаний;
  • сравнение различных образцов продукции;
  • обоснование замены сплошного контроля статистическим;
  • выявление возможности внедрения статистических методов управления качеством продукции, и т.д.

Для достижения перечисленных выше целей применяют различные методы описания данных, оценивания и проверки гипотез. Приведем примеры постановок задач.

Задачи одномерной статистики (статистики случайных величин). Сравнение математических ожиданий проводят в тех случаях, когда необходимо установить соответствие показателей качества изготовленной продукции и эталонного образца. Это - задача проверки гипотезы:

H_0:M(X)=m_0,
где m_0 - значение, соответствующее эталонному образцу; X - случайная величина, моделирующая результаты наблюдений. В зависимости от формулировки вероятностной модели ситуации и альтернативной гипотезы сравнение математических ожиданий проводят либо параметрическими, либо непараметрическими методами.

Сравнение дисперсий проводят тогда, когда требуется установить отличие рассеивания показателя качества от номинального. Для этого проверяют гипотезу:

H_0:D(X)=\sigma_0^2.

Ряд иных постановок задач одномерной статистики приведен ниже. Не меньшее значение, чем задачи проверки гипотез, имеют задачи оценивания параметров. Они, как и задачи проверки гипотез, в зависимости от используемой вероятностной модели ситуации делятся на параметрические и непараметрические.

В параметрических задачах оценивания принимают вероятностную модель, согласно которой результаты наблюдений x_1, x_2,..., x_n рассматривают как реализации n независимых случайных величин с функцией распределения F(x;\theta). Здесь \theta - неизвестный параметр, лежащий в пространстве параметров \Theta, заданном используемой вероятностной моделью. Задача оценивания состоит в определении точечных оценок и доверительных границ (либо доверительной области) для параметра \theta.

Параметр \theta - либо число, либо вектор фиксированной конечной размерности. Так, для нормального распределения \theta=(m,\sigma^2) - двумерный вектор, для биномиального \theta=p - число, для гамма-распределения \theta=(a,b,c) - трехмерный вектор и т.д.

В современной математической статистике разработан ряд общих методов определения оценок и доверительных границ - метод моментов, метод максимального правдоподобия, метод одношаговых оценок, метод устойчивых (робастных) оценок, метод несмещенных оценок и др. Кратко рассмотрим первые три из них. Теоретические основы различных методов оценивания и полученные с их помощью конкретные правила определения оценок и доверительных границ для тех или иных параметрических семейств распределений рассмотрены в специальной литературе, включены в нормативно-техническую и инструктивно-методическую документацию.

Метод моментов основан на использовании выражений для моментов рассматриваемых случайных величин через параметры их функций распределения. Оценки метода моментов получают, подставляя выборочные моменты вместо теоретических в функции, выражающие параметры через моменты.

В методе максимального правдоподобия, разработанном в основном Р.А.Фишером, в качестве оценки параметра \theta берут значение \theta^*, для которого максимальна так называемая функция правдоподобия

f(x_1,\theta)f(x_2,\theta)...f(x_n,\theta),

где x_1, x_2,..., x_n - результаты наблюдений; f(x,\theta) - их плотность распределения, зависящая от параметра \theta, который необходимо оценить.

Оценки максимального правдоподобия, как правило, эффективны (или асимптотически эффективны) и имеют меньшую дисперсию, чем оценки метода моментов. В отдельных случаях формулы для них выписываются явно (нормальное распределение, экспоненциальное распределение без сдвига). Однако чаще для их нахождения необходимо численно решать систему трансцендентных уравнений (распределения Вейбулла-Гнеденко, гамма). В подобных случаях целесообразно использовать не оценки максимального правдоподобия, а другие виды оценок, прежде всего одношаговые оценки. В литературе их иногда не вполне точно называют "приближенные оценки максимального правдоподобия". При достаточно больших объемах выборок они имеют столь же хорошие свойства, как и оценки максимального правдоподобия. Поэтому их следует рассматривать не как "приближенные", а как оценки, полученные по другому методу, не менее обоснованному и эффективному, чем метод максимального правдоподобия. Одношаговые оценки вычисляют по явным формулам (см. "Оценивание" , а также [ [ 2.14 ] ]).

В непараметрических задачах оценивания принимают вероятностную модель, в которой результаты наблюдений x_1, x_2,..., x_n рассматривают как реализации n независимых случайных величин с функцией распределения F(x) общего вида. От F(x) требуют лишь выполнения некоторых условий типа непрерывности, существования математического ожидания и дисперсии и т.п. Подобные условия не являются столь жесткими, как условие принадлежности к определенному параметрическому семейству.

В непараметрической постановке оценивают либо характеристики случайной величины (математическое ожидание, дисперсию, коэффициент вариации), либо ее функцию распределения, плотность и т.п. Так, в силу закона больших чисел выборочное среднее арифметическое \overline{x} является состоятельной оценкой математического ожидания M(X) (при любой функции распределения F(x) результатов наблюдений, для которой математическое ожидание существует). С помощью центральной предельной теоремы определяют асимптотические доверительные границы

(M(X))_H=\overline{x}-u
\left(
\frac{1+\gamma}{2}
\right)
\frac{s}{\sqrt{n}},
(M(X))_B=\overline{x}+u
\left(
\frac{1+\gamma}{2}
\right)
\frac{s}{\sqrt{n}},

где \gamma - доверительная вероятность, u\left(\frac{1+\gamma}{2}\right) - квантиль порядка \frac{1+\gamma}{2} стандартного нормального распределения N(0;1) с нулевым математическим ожиданием и единичной дисперсией, \overline{x} - выборочное среднее арифметическое, s - выборочное среднее квадратическое отклонение. Термин "асимптотические доверительные границы" означает, что вероятности

\begin{gathered}
P\{(M(X))_H<M(X)\}, P\{(M(X))_B>M(X)\}, \\
P\{(M(X))_H<M(X)<(M(X))_B\}
\end{gathered}
стремятся к \frac{1+\gamma}{2}, \frac{1+\gamma}{2} и \gamma соответственно при n\rightarrow\infty, но, вообще говоря, не равны этим значениям при конечных n. Практически асимптотические доверительные границы дают достаточную точность при n порядка 10.

Второй пример непараметрического оценивания - оценивание функции распределения. По теореме Гливенко эмпирическая функция распределения F_n(x) является состоятельной оценкой функции распределения F(x). Если F(x) - непрерывная функция, то на основе теоремы Колмогорова доверительные границы для функции распределения F(x) задают в виде

(F(x))_H=\max
\left\{
0,F_n(x)-\frac{k(\gamma,n)}{\sqrt{n}}
\right\},\;
(F(x))_B=\min
\left\{
1,F_n(x)+\frac{k(\gamma,n)}{\sqrt{n}}
\right\},

где k(\gamma,n) - квантиль порядка \gamma распределения статистики Колмогорова при объеме выборки n (напомним, что распределение этой статистики не зависит от F(x) ).

Правила определения оценок и доверительных границ в параметрическом случае строятся на основе параметрического семейства распределений F(x;\theta). При обработке реальных данных возникает вопрос - соответствуют ли эти данные принятой вероятностной модели, т.е. статистической гипотезе о том, что результаты наблюдений имеют функцию распределения из семейства \{F(x;\theta),\theta\in\Theta\} при некотором \theta=\theta_0? Такие гипотезы называют гипотезами согласия, а критерии их проверки - критериями согласия.

Если истинное значение параметра \theta=\theta_0 известно, функция распределения F(x;\theta_0) непрерывна, то для проверки гипотезы согласия часто применяют критерий Колмогорова, основанный на статистике

D_n=\sqrt{n}\sup_x|F_n(x)-F(x,\theta_0)|,
где F_n(x) - эмпирическая функция распределения.

Если истинное значение параметра \theta_0 неизвестно, например, при проверке гипотезы о нормальности распределения результатов наблюдения (т.е. при проверке принадлежности этого распределения к семейству нормальных распределений), то иногда используют статистику

D_n(\theta*)=\sqrt{n}\sup_x|F_n(x)-F(x,\theta*)|.

Она отличается от статистики Колмогорова D_n тем, что вместо истинного значения параметра \theta_0 подставлена его оценка \theta*.

Распределение статистики D_n(\theta^*) сильно отличается от распределения статистики D_n. В качестве примера рассмотрим проверку нормальности, когда \theta=(m,\sigma^2), а \theta^*=(\overline{x},s^2). Для этого случая квантили распределений статистик D_n и D_n(\theta^*) приведены в табл.2.5 (см., например, [ [ 2.13 ] ]). Таким образом, квантили отличаются примерно в 1,5 раза.

Таблица 2.5. Квантили статистик при проверке нормальности
p 0,85 0,90 0,95 0,975 0,99
Квантили порядка p для D_n 1,138 1,224 1,358 1,480 1,626
Квантили порядка p для D_n(\theta^*) 0,775 0,819 0,895 0,955 1,035

При первичной обработке статистических данных важной задачей является исключение результатов наблюдений, полученных в резульытате грубых погрешностей и промахов. Например, при просмотре данных о весе (в килограммах) новорожденных детей наряду с числами 3,500, 2,750, 4,200 может встретиться число 35,00. Ясно, что это промах, и получено ошибочное число при ошибочной записи - запятая сдвинута на один знак, в результате результат наблюдения ошибочно увеличен в 10 раз.

Статистические методы исключения резко выделяющихся результатов наблюдений основаны на предположении, что подобные результаты наблюдений имеют распределения, резко отличающиеся от изучаемых, а потому их следует исключить из выборки.

Простейшая вероятностная модель такова. При нулевой гипотезе результаты наблюдений рассматриваются как реализации независимых одинаково распределенных случайных величин X_1, X_2 ,..., X_n с функцией распределения F(x). При альтернативной гипотезе X_1, X_2,..., X_{n-1} - такие же, как и при нулевой гипотезе, а X_n соответствует грубой погрешности и имеет функцию распределения G(x)=F(x-c), где с велико. Тогда с вероятностью, близкой к 1 (точнее, стремящейся к 1 при росте объема выборки),

X_n=\max\{X_1,X_2,...,X_n\}=X_{\max},
т.е. при описании данных в качестве возможной грубой ошибки следует рассматривать X_{\max}. Критическая область имеет вид
\Psi=\{x:x\ge d\}

Критическое значение d=d(\alpha,n) выбирают в зависимости от уровня значимости \alpha и объема выборки n из условия

P\{X_{\max}\ge d|H_0\}=\alpha ( 1)

Условие (1) эквивалентно при больших n и малых \alpha следующему:

F(d)=\sqrt[n]{1-\alpha}\approx1-\frac{\alpha}{n} ( 2)

Если функция распределения результатов наблюдений F(x) известна, то критическое значение d находят из соотношения (2). Если F(x) известна с точностью до параметров, например, известно, что F(x) - нормальная функция распределения, то также разработаны правила проверки рассматриваемой гипотезы [ [ 2.1 ] ].

Однако часто вид функции распределения результатов наблюдений известен не абсолютно точно и не с точностью до параметров, а лишь с некоторой погрешностью. Тогда соотношение (2) становится практически бесполезным, поскольку малая погрешность в определении F(x), как можно показать, приводит к большой погрешности при определении критического значения d из условия (2), а при фиксированном d уровень значимости критерия может существенно отличаться от номинального [ [ 2.16 ] ].

Поэтому в ситуации, когда о F(x) нет полной информации, однако известны математическое ожидание M(X) и дисперсия \sigma^2=D(X) результатов наблюдений X_1, X_2,...,X_n, можно использовать непараметрические правила отбраковки, основанные на неравенстве Чебышева. С помощью этого неравенства найдем критическое значение d=d(\alpha,n) такое, что

P\{\max_{1\le i\le n}|X_i-M(X)|\ge d\}\le\alpha ( 3)

Так как

P\{\max_{1\le i\le n}|X_i-M(X)|<d\}=[P\{|X-M(X)|<d\}]^n,
то соотношение (3) будет выполнено, если
P\{|X-M(X)|\ge d\}\le 1-\sqrt[n]{1-\alpha}\approx\frac{\alpha}{n}. ( 4)

По неравенству Чебышева

P\{|X-M(X)|\ge d\}\le\frac{\sigma^2}{d^2}, ( 5)
поэтому для того, чтобы (4) было выполнено, достаточно приравнять правые части формул (4) и (5), т.е. определить d из условия
\frac{\sigma^2}{d^2}=\frac{\alpha}{n},d=\frac{\sigma\sqrt{n}}{\sqrt{\alpha}} ( 6)

Правило отбраковки, основанное на критическом значении d, вычисленном по формуле (6), использует минимальную информацию о функции распределения F(x) и поэтому исключает лишь результаты наблюдений, весьма далеко отстоящие от основной массы. Другими словами, значение d_1, заданное соотношением (1), обычно много меньше, чем значение d_2, заданное соотношением (6).

Многомерный статистический анализ. Перейдем к многомерному статистическому анализу. Его применяют при решении следующих задач:

  • исследование зависимости между признаками;
  • классификация объектов или признаков, заданных векторами;
  • снижение размерности пространства признаков.

При этом результат наблюдений - вектор значений фиксированного числа количественных и иногда качественных признаков, измеренных у объекта. Напомним, что количественный признак - признак наблюдаемой единицы, который можно непосредственно выразить числом и единицей измерения. Количественный признак противопоставляется качественному - признаку наблюдаемой единицы, определяемому отнесением к одной из двух или более условных категорий (если имеется ровно две категории, то признак называется альтернативным). Статистический анализ качественных признаков - часть статистики объектов нечисловой природы. Количественные признаки делятся на признаки, измеренные в шкалах интервалов, отношений, разностей, абсолютной.

А качественные - на признаки, измеренные в шкале наименований и порядковой шкале. Методы обработки данных должны быть согласованы со шкалами, в которых измерены рассматриваемые признаки (см. "Описание данных" о теории измерений).

Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами X и Y применяют корреляционный анализ. Если совместное распределение X и Y является нормальным, то статистические выводы основывают на выборочном коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена, а для качественных признаков - критерий хи-квадрат.

Регрессионный анализ применяют для изучения функциональной зависимости количественного признака Y от количественных признаков x(1), x(2), ... , x(k). Эту зависимость называют регрессионной или, кратко, регрессией. Простейшая вероятностная модель регрессионного анализа (в случае k = 1 ) использует в качестве исходной информации набор пар результатов наблюдений (x_i, y_i), i = 1, 2, ..., n, и имеет вид

y_i=ax_i+b+\varepsilon_i,i=1,2,...,n,
где \varepsilon_i - ошибки наблюдений. Иногда предполагают, что \varepsilon_i - независимые случайные величины с одним и тем же нормальным распределением N(0, \sigma^2). Поскольку распределение ошибок наблюдения обычно отлично от нормального, то целесообразно рассматривать регрессионную модель в непараметрической постановке [ [ 2.16 ] ], т.е. при произвольном распределении \varepsilon_i.

Основная задача регрессионного анализа состоит в оценке неизвестных параметров a и b, задающих линейную зависимость y от x. Для решения этой задачи применяют разработанный еще в 1794 г. К.Гауссом метод наименьших квадратов, т.е. находят оценки неизвестных параметров модели a и b из условия минимизации суммы квадратов

\sum_{1\le i\le n}(y_i-ax_i-b)^2
по переменным а и b.

Описание теории регрессионного анализа и расчетные формулы приведены в специальной литературе [ [ 1.7 ] , [ 2.16 ] , [ 1.22 ] ]. В рамках этой теории разработаны методы точечного и интервального оценивания параметров, задающих функциональную зависимость, а также непараметрические методы оценивания этой зависимости, методы проверки различных гипотез, связанных с регрессионными зависимостями. Выбор планов эксперимента, т.е. точек x_i, в которых будут проводиться эксперименты по наблюдению y_i - предмет теории планирования эксперимента [ [ 2.11 ] ].

Дисперсионный анализ применяют для изучения влияния качественных признаков на количественную переменную. Например, пусть имеются k выборок результатов измерений количественного показателя качества единиц продукции, выпущенных на k станках, т.е. набор чисел (x_1(j), x_2(j), ... , x_n(j)), где j - номер станка, j = 1, 2, ..., k, а n - объем выборки. В распространенной постановке дисперсионного анализа предполагают, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), \sigma^2) с одной и той же дисперсией. Хорошо разработаны и непараметрические постановки [ [ 2.21 ] ].

Проверка однородности качества продукции, т.е. отсутствия влияния номера станка на качество продукции, сводится к проверке гипотезы

H_0:m(1)=m(2)=...=m(k).