НОУ ИНТУИТ | Прикладная статистика. Лекция 7: Проверка гипотез

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 09.11.2009 | Уровень: для всех | Доступ: свободно

|

Вам нравится? Нравится 61 студенту

| Поделиться |

Поддержать

| Скачать электронную книгу

7.4. Метод проверки гипотез по совокупности малых выборок

Одна из областей применения прикладной статистики - статистические методы управления качеством продукции [ [ 2.15 ] , гл.13]. К ним относится статистический приемочный контроль, в котором по результатам испытаний элементов выборки делается вывод о качестве партии продукции. В простейшем варианте проводится контроль по альтернативному признаку, при котором возможны лишь два результата контроля конкретной единицы продукции - "соответствует требованиям" или "не соответствует требованиям", короче - "да" или "нет".

Рассмотрим статистический приемочный контроль по двум альтернативным признакам одновременно. На основе теории люсианов обсудим проблему проверки независимости двух альтернативных признаков. Ее приходится проводить по совокупности малых выборок, т.е. в так называемой асимптотике А.Н. Колмогорова, когда число неизвестных параметров распределения не является постоянным, а растет пропорционально объему данных.

Испытания по двум альтернативным признакам. При статистическом контроле качества продукции, в частности, при сертификации, чаще всего используют контроль по альтернативным признакам. При этом устанавливается, соответствует ли контролируемый параметр единицы продукции (изделия, детали) заданным в нормативно-технической документации требованиям или не соответствует. Если соответствует - единица продукции признается годной. Примем для определенности, что в этом случае результат контроля кодируется символом 0. Если же не соответствует - единица продукции признается дефектной, а результат контроля кодируется символом 1.

Таким образом, в рассматриваемой нами математической модели контроля альтернативный признак - это функция X = X(w) , определенная на множестве единиц продукции $W = \{w\}$ и принимающая два значения 0 и 1. Причем X(w) = 0 означает, что единица продукции является годной, а X(w) = 1 - дефектной.

Методы статистического контроля, в частности, включенные в государственные стандарты и иную нормативно-техническую документацию (НТД), как правило, используют контроль по одному признаку. В НТД указывают правила выбора планов контроля и расчета различных их характеристик, приводят графики оперативных характеристик и т.п.

Однако на производстве контроль нередко проводится по нескольким альтернативным признакам. Возникает проблема выбора плана контроля и расчета его характеристик.

Рассмотрим сначала контроль по двум альтернативным признакам X(w) и Y(w) . В вероятностной модели X(w) и Y(w) - случайные величины, принимающие два значения - 0 и 1. Пусть, пользуясь стандартной (для статистических методов управления качеством) терминологией, p1 = P(X(w) = 1) - входной уровень дефектности для первого признака, а p2 = P(Y(w) = 1) - для второго. Вероятности результатов контроля по двум признакам одновременно описываются четырьмя числами:

$\begin{gathered} P(X(w)=0,Y(w)=0)=p_{00},P(X(w)=1,Y(w)=0)=p_{10}, P(X(w)=0,Y(w)=1)=p_{01},P(X(w)=1,Y(w)=1)=p_{11}. \end{gathered}$

При этом справедливы соотношения:

$p_{00} + p_{10} + p_{01} + p_{11} = 1, p_{10} + p_{11} = p_1, p_{01} + p_{11} = p_2.$

С прикладной точки зрения наиболее интересна вероятность $p_{00}$ того, что единица продукции является годной (по всем параметрам), и вероятность ее дефектности $(1-p_{00})$ , т.е. входной уровень дефектности для изделия в целом.

В табл.7.1 сведены вместе введенные выше вероятности.

Таблица 7.1. Вероятности результатов испытаний при контроле по двум альтернативным признакам
			Всего
	$p_{00}$	$p_{10}$
	$p_{01}$	$p_{11}$
Всего			1

Есть три важных частных случая - поглощения, несовместности и независимости дефектов. Другими словами, поглощения, несовместности и независимости событий $\{w: X(w) = 1\}$ и $\{w: Y(w) = 1\}$ . В случае поглощения одно из этих событий содержит другое, а потому

$p_{00}=1-\max(p_1,p_2).$

В случае несовместности

$p_{00} = 1 - p_1 - p_2.$

В случае независимости

$p_{00} = (1 - p_1)(1 - p_2) = 1 - p_1 - p_2 + p_1p_2.$

Очевидно, что вероятность годности изделия всегда заключена между значениями, соответствующими случаям поглощения и несовместности. Кроме того, известно, что при большом числе признаков и малой вероятности дефектности по каждому из них случаи поглощения и независимости дают (в асимптотике) крайние значения для вероятности годности изделия, т.е. формулы, соответствующие независимости и несовместности, асимптотически совпадают. Причина этого явления состоит в том, что при малости p_1 и p_2 их произведение p_1p_2 является бесконечно малой более высокого порядка по сравнения с p_1 и p_2 .

Рассмотрим несколько примеров. Пусть некоторая продукция, скажем, гвозди, контролируются по двум альтернативным признакам, для определенности, по весу и длине. Результаты контроля 1000 единиц продукции представлены в табл.7.2

Таблица 7.2. Результаты 1000 испытаний по двум альтернативным признакам (случай поглощения)
			Всего
	952	0	952
	0	48	48
Всего	952	48	1000

Судя по данным табл.7.2, дефекты всегда встречаются парами - если есть один, то есть и другой. Входной уровень дефектности как по каждому показателю, так и по обоим вместе - один и тот же, а именно, 0,048. Получив по результатам статистического наблюдения данные, подобные приведенным в табл.7.2, целесообразно перейти к контролю только одного показателя, а не двух. Какого именно? Видимо, того, контроль которого дешевле. Однако совсем иная ситуация возникает в случае несовместности дефектов (табл. 7.3).

Таблица 7.3. Результаты 1000 испытаний по двум альтернативным признакам (случай несовместности)
			Всего
	904	48	952
	48	0	48
Всего	952	48	1000

Судя по данным табл.7.3, дефекты всегда встречаются поодиночке - если есть один, то другого нет. В результате входной уровень дефектности по каждому признаку по-прежнему равен 0,048, в то время как доля дефектных изделий (т.е. имеющих хотя бы один дефект) вдвое выше, т.е. входной уровень дефектности для изделия в целом равен 0,096.

Случай независимости результатов контроля по двум независимым признакам (табл.7.4) лежит между крайними случаями поглощения и несовместности. Независимость альтернативных признаков обосновывается путем статистической проверки с помощью описанного ниже критерия $n^{1/2}V$ .

Согласно данным табл.7.4, входной уровень дефектности для каждого из двух альтернативных признаков по-прежнему равен 0,048, в то время как для изделий в целом он равен 0,091, т.е. на 5,2% меньше, чем в случае несовместности, и на 89,6% больше, чем в случае поглощения.

Таблица 7.4. Результаты 1000 испытаний по двум альтернативным признакам (случай независимости)
			Всего
	909	43	952
	43	5	48
Всего	952	48	1000

Проблема состоит в том, что таблицы и стандарты по статистическому приемочному контролю относятся обычно к случаю одного контролируемого параметра. А как быть, если контролируемых параметров несколько? Приведенные выше примеры показывают, что входной уровень дефектности изделия в целом не определяется однозначно по входным уровням дефектности отдельных его параметров.

Гипотеза независимости. Как должны соотноситься характеристики планов контроля по отдельным признакам с характеристиками плана контроля по двум (или многим) признакам одновременно? Рассмотрим распространенную рекомендацию - складывать уровни дефектности, т.е. считать, что уровень дефектности изделия в целом равен сумме уровней дефектности по отдельным его параметрам. Она, очевидно, опирается на гипотезу несовместности дефектов, а потому во многих случаях преувеличивает дефектность, следовательно, ведет к использованию излишне жестких планов контроля, что экономически невыгодно.

Зная специфику применяемых технологических процессов, в ряде конкретных случаев можно предположить, что дефекты по различным признакам возникают независимо друг от друга. Это предположение необходимо обосновывать по статистическим данным. Если же оно обосновано, следует рассчитывать входной уровень дефектности по формуле

$1 - p_{00} = p_1 + p_2 - p_1p_2,$

соответствующей независимости признаков.

Итак, необходимо уметь проверять по статистическим данным гипотезу независимости двух альтернативных признаков. Речь идет о статистической проверке нулевой гипотезы

$H_0: p_{11} = p_1p_2$

( 1)

(что эквивалентно проверке равенства $p_{00} = (1 - p_1)(1 - p_2))$ . Нетрудно проверить, что гипотеза о справедливости равенства (1) эквивалентна гипотезе

$H_0: p_{00} p_{11} - p_{10} p_{01} = 0.$

( 2)

В простейшем случае предполагается, что проведено n независимых испытаний (X_i, Y_i), i = 1, 2, ..., n , в каждом из которых проконтролированы два альтернативных признака, а вероятности результатов контроля не меняются от испытания к испытанию. Общий вид статистических данных приведен в табл.7.5.

В табл.7.5 величина - число испытаний, в которых (X_i , Y_i) = (0,0) , величина - число испытаний, в которых (X_i , Y_i) = (1,0) , и т.д.

Таблица 7.5. Общий вид результатов контроля по двум альтернативным признакам
			Всего


Всего

Случайный вектор (a, b, c, d) имеет мультиномиальное распределение с числом испытаний и вектором вероятностей исходов $(p_{00}, p_{10}, p_{01}, p_{11})$ . Состоятельными оценками этих вероятностей являются дроби a/n, b/n, c/n, d/n соответственно. Следовательно, критерий проверки гипотезы (2) может быть основан на статистике

( 3)

Как вытекает из известной формулы для ковариаций мультиномиального вектора (см., например, формулу (6.3.5) в учеб. С.Уилкса [ [ 7.21 ] ] на с.153),

$М(Z) = n (p_{10} p_{01} - p_{00} p_{11}),$

( 4)

что равно 0 при справедливости гипотезы независимости (2).

Связь между переменными и обычно измеряется коэффициентом, отличающимся от нормирующим множителем:

$V = (ad - bc)\{(a + b)(a + c)(b + d)(c + d)\}^{-1/2}$

(см. классическую монографию М. Дж. Кендалла и А. Стьюарта [

, с.723]). При справедливости гипотезы H_0

и больших

случайная величина nV^2

имеет хи-квадрат распределение с одной степенью свободы, а $n^{1/2}V$ имеет стандартное нормальное распределение с математическим ожиданием 0 и дисперсией 1 (см. [ [ 1.7 ] , с.736]). Значение $n^{1/2}V$ для данных табл.7.4 равно 1,866, т.е. на уровне значимости 0,05 гипотезу независимости следует принять.

Рассмотрим еще один пример. Пусть проведено 100 испытаний, результаты которых описаны в табл.7.6. Тогда

$\begin{gathered} V=(50\cdot 20-10\cdot 20)(60\cdot 70\cdot 30\cdot 40)^{-1/2} \\ =(1000-200)\cdot 5040000^{-1/2}=800/2245=0,35635, \\ n^{1/2}V=3,5635. \end{gathered}$

Таблица 7.6. Результаты 100 испытаний по двум альтернативным признакам
			Всего
	50	10	60
	20	20	40
Всего	70	30	100

Поскольку полученное значение $n^{1/2}V$ превышает критическое значение при любом применяемом в статистике уровне значимости, то гипотезу о независимости признаков необходимо отклонить.

Проверка гипотез по совокупности малых выборок. К сожалению, приведенный простой метод годится не всегда. При статистическом анализе реальных данных возникают проблемы, связанные с отсутствием достаточно больших однородных выборок, т.е. выборок, в которых постоянны параметры вероятностных распределений. Реально единицы продукции представляются на контроль партиями, из каждой партии контролируются лишь несколько изделий, т.е. малая выборка. При этом от партии к партии меняются параметры $p_{00}, p_{10}, p_{01}, p_{11}$ , описывающие уровень дефектности. Поэтому необходимы статистические методы, позволяющие проверять гипотезу независимости признаков по совокупности малых выборок. Построим один из возможных методов.

Рассмотрим вероятностную модель совокупности малых выборок объемов n_1 , n_2 ,..., n_k соответственно. Пусть -я выборка $(X_{jt} , Y_{jt}), t = 1, 2,..., n_j$ , имеет распределение, задаваемое вектором параметров $(p_{00j}, p_{10j}, p_{01j}, p_{11j})$ в соответствии с ранее введенными обозначениями, j = 1,2,...,k . Будем проверять гипотезу

$H_0: p_{11j} = (p_{10j} + p_{11j}) (p_{01j} + p_{11j}), j = 1,2,...,k,$

( 5)

или в эквивалентной формулировке

$Н_0: p_{11j} p_{00j} - p_{10j} p_{01j}, j = 1,2,...,k.$

( 6)

Основная идея состоит в нахождении асимптотического распределения статистики типа $n^{1/2}V$ при росте числа малых выборок, а именно, статистики

( 7)

где

- статистики, рассчитанные по формуле (3) для каждой из

выборок, т.е. Z_j = a_jd_j - b_jc_j , j = 1,2,...,k

, а

- некоторые весовые коэффициенты, которые, в частности, могут совпадать. Поскольку

М(S) = g_1 М(Z_1) + g_2 М(Z_2) + ... + g_k М(Z_k),

то при справедливости гипотезы независимости (5) - (6) имеем М(S) = 0

согласно соотношению (4). Поскольку слагаемые в сумме (7) независимы, то при росте

случайная величина

в силу центральной предельной теоремы является асимптотически нормальной. Дисперсия этой величины равна сумме дисперсий слагаемых:

D(S)=g_1^2 D(Z_1)+g_2^2 D(Z_2)+...+g_k^2 D(Z_k).

( 8)

Для оценивания дисперсии необходимо использовать несмещенные оценки дисперсий в каждой из выборок (и в этом одна из основных "изюминок" разбираемого метода). Предположим, что построены статистики T_j такие, что

( 9)

Тогда при некоторых математических "условиях регулярности", на которых нет необходимости здесь останавливаться, несмещенная оценка дисперсии статистики , имеющая согласно формулам (8) и (9) вид

в силу закона больших чисел такова, что дробь D(S)/L

приближается к 1 при росте числа выборок (сходимость по вероятности). Отсюда следует, что распределение случайной величины $Q = SL^{-1/2}$ приближается при росте числа выборок к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1. Следовательно, критерий проверки гипотезы (5) - (6) независимости признаков, состоящий в том, что при (-1,96) < Q < 1,96

гипотеза принимается, а при

, выходящих за пределы интервала (-1,96; 1,96), - отклоняется, имеет уровень значимости, приближающийся к 0,05 при росте числа выборок. Мощность этого критерия зависит от величины $М(S)D(S)^{-1/2}$ при альтернативе.

Для реализации намеченного плана осталось научиться несмещенно оценивать D(Z_j) . К сожалению, в литературе по несмещенному оцениванию не рассматривают случай мультиномиального распределения, поэтому кратко опишем процедуру построения несмещенной оценки D(Z_j) . Поскольку согласно формулам (3) и (4)

$\begin{aligned} &D(Z_j)=M(Z_j^2)-(M(Z_j))^2=M(a_j^2 d_j^2)-2M(a_j,b_j,c_j,d_j)+\\ &+M(b_j^2 c_j^2)+n_j^2(p_{00j}p_{11j}-p_{01j}p(10j))^2, \end{aligned}$

( 10)

то для вычисления D(Z_j)

достаточно найти входящие в правую часть формулы (10) начальные смешанные моменты мультиномиального распределения (четвертого порядка). Теоретически это просто - известен вид характеристической функции мультиномиального распределения (см., например, формулу (6.3.4) в монографии [ [ 7.21 ] , с.152]), а начальные смешанные моменты равны значениям ее соответствующих производных в 0, деленным на нужную степень мнимой единицы (формула (5.2.3) в монографии [ [ 7.21 ] , с.131]). Например, с помощью описанной процедуры после некоторых вычислений получаем, что (для упрощения записи здесь и далее опустим индекс

)

$\begin{aligned} &M(a^2d^2)=n(n-1)(n-2)(n-3)p_{11}^2p_{00}^2+ \\ &+n(n-1)(n-2)(p_{11}^2p_{00}+p_{11}p_{00}^2)+n(n-1)p_{11}p_{00}. \end{aligned}$

( 11)

Формула (11) показывает, что начальные смешанные моменты мультиномиального распределения являются многочленами от параметров $p_{11}, p_{00}, p_{10}, p_{01}$ этого распределения, однако конкретный вид этих многочленов достаточно громоздок, поэтому не будем их здесь выписывать, ограничившись формулой (11) в качестве образца.

Как вытекает из формул (10) и (11), для построения несмещенной оценки D(Z_j) необходимо научиться несмещенно оценивать произведения типа $p_{11}^r p_{00}^m$ , где целые неотрицательные числа r, m не превосходят 2. Эта задача решается, начиная с меньших степеней. Известно, что для ковариации мультиномиального вектора

$М(ad) = - n p_{00} p_{11}$

( 12)

(см., например, формулу (6.3.5) в монографии [ [ 7.21 ] , с.153]), а потому несмещенной оценкой для $p_{00}p_{11}$ является (-ad/n)

. Далее, поскольку справедлива аналогичная (11) формула

$M(a^2 d)=n(n-1)(n-2)p_{11}p_{00}^2+n(n-1)p_{11}p_{00},$

( 13)

то с помощью формулы (12) преобразуем формулу (13) к виду

$M(a^2 d+(n-1)ad)=n(n-1)(n-2)p_{11}p_{00}^2$

( 14)

т.е. несмещенной оценкой $p_{11}p_{00}^2$ является $ad(a+n-1)\{n(n-1)(n-2)\}^{-1}$ .

Следующий шаг - аналогичным образом с помощью формул (12) и (14) получаем несмещенную оценку для $p_{11}^2 p_{00}^2$ , а затем и для D(Z_j) . Промежуточные формулы опущены из-за громоздкости. Окончательный результат таков:

$T_j=(b_j+d_j)(c_j+d_j)(a_j+c_j)(a_j+b_j)(n-1)^{-1}.$

Как легко видеть,

$\frac{Z_j}{\sqrt{T_j}}=V_j\sqrt{n_j-1},$

т.е. в случае одной выборки предлагаемый метод совпадает с классическим.

Общая идея рассматриваемого метода проверки гипотез по совокупности малых выборок состоит в том, что подбирается статистика, математическое ожидание которой для каждой малой выборки равно 0 при справедливости проверяемой гипотезы. Затем для каждой выборки строится несмещенная оценка дисперсии этой статистики. Итоговая статистика критерия для проверки гипотезы - это сумма рассматриваемых статистик для всех малых выборок, деленная на квадратный корень из суммы всех несмещенных оценок дисперсий рассматриваемых статистик. При справедливости нулевой гипотезы эта итоговая статистика имеет в асимптотике стандартное нормальное распределение (при выполнении некоторых математических "условий регулярности", которые обычно выполняются при анализе реальных статистических данных).

Впервые такой способ проверки гипотез по совокупности малых выборок был предложен в монографии [ [ 1.15 ] , раздел 4.5]. Нестандартность постановки состоит в том, что число неизвестных параметров растет пропорционально объему данных, т.е. имеет место так называемая "асимптотика Колмогорова", или асимптотика растущей размерности. Дальнейшее развитие применительно к данным типа "да" - "нет" (или "годен" - "дефектен") шло в рамках теории люсианов как части статистики объектов нечисловой природы (см. "Статистика нечисловых данных" ).

Дальше >>

Прикладная статистика

Проверка гипотез

7.4. Метод проверки гипотез по совокупности малых выборок

Вопросы и ответы

Студенты

Авторизоваться

Прикладная статистика

Проверка гипотез

7.4. Метод проверки гипотез по совокупности малых выборок

Вопросы и ответы

Студенты