Опубликован: 26.04.2007 | Уровень: специалист | Доступ: платный
Лекция 19:

Проверка простой гипотезы относительно простой альтернативы

< Лекция 18 || Лекция 19: 1234 || Лекция 20 >
Аннотация: Байесовское решение как проверка по отношению правдоподобия. Значимость и мощность критерия. Функция байесовского риска.

Байесовское решение как проверка по отношению правдоподобия

Рассмотрим статистическую игру (17.17) при m=n=2. Примером операции такого рода является обсуждавшаяся в "Выбор решений при неизвестных состояниях природы (игры с природой)" задача диагностики туберкулеза. Будем использовать эту задачу для иллюстрации основных положений, вводимых ниже.

Примем, что функция потерь L(\omega, a) включает лишь затраты, вызываемые ошибками при постановке диагноза. При этом потери L(1,2), связанные с ошибочным направлением на лечение здорового человека, примем за единицу потерь. Тогда

L(1,1) = L(2,2) = 0,\quad L(1,2) = 1,\quad L(2,1) =w, ( 18.1)
где w>0 есть (выраженные в указанных выше единицах) потери от постановки ошибочного диагноза лицу, пораженному заболеванием. Заметим, что при сделанных предположениях функция L(\omega, a) полностью определяется заданием единственного числа w>0.

В соответствии с замечанием о простых гипотезах (см. "Выбор решений при неизвестных состояниях природы (игры с природой)" ), любая статистическая игра с функцией потерь вида (18.1) может интерпретироваться как выбор одной из двух простых гипотез. При этом остающаяся альтернатива также соответствует простой гипотезе.

Отметим, что два типа ошибок статистика, возможных в обсуждавшейся задаче диагностики туберкулеза, вообще говоря, не являются одинаковыми по сопровождающим их потерям. Случай, когда обследование не выявило факт заболевания, следствием чего будет позднее начало лечения запущенной формы болезни, должен рассматриваться как более серьезная ошибка, чем направление здорового человека для прохождения курса лечения1Заметим, что такое направление предполагает более подробное обследование, предшествующее лечению. Затраты на это обследование и ущерб от временного прерывания нормальной жизнедеятельности пациента (не нуждавшегося в лечении) составляют содержание потерь, вызываемых обсуждаемым ошибочным диагнозом..

В задачах выбора решений, для которых характерно указанное различие последствий, вызываемых ошибками, бoлее серьезную ошибку, ведущую к большим потерям, принято называть ошибкой первого рода. Вторая возможная ошибка называется ошибкой второго рода.

Указанное различие в классификации ошибок ведет к соответствующему различению двух рассматриваемых гипотез. Если отвержение гипотезы, являющейся истинной, ведет к ошибке первого рода, то ее называют испытуемой гипотезой или нуль-гипотезой. В рассматриваемом примере диагностики туберкулеза такой гипотезой является наличие заболевания (т.е. факт порождения исхода испытания z\in Z случайной величиной с распределением p2(z) ).

Матрица потерь, соответствующая функции (18,1), и введенные наименования для состояний природы, действий статистика и ошибок представлены в табл. 4.3.

Введем обозначение \zeta = \xi(1) для априорной вероятности первого состояния природы, т.е. примем, что

\xi  =(\zeta, 1 - \zeta),\quad 0 \le \zeta \le 1, ( 18.2)
и определим условия, при выполнении которых решение a=1, соответствующее отвержению нуль-гипотезы, будет байесовским. Согласно (17.21), эти условия состоят в выполнении неравенства
L(1,1) p_1(z) \xi(1) + L(2,1)p_2(z) \xi(2) \le L(1,2) p_1(z) \zeta(1) +
L(2,2) p_2(z) \xi(2),
которое, учитывая (18.1) и (18.2), может быть представлено в виде
w p_2(z)(1 -\zeta) \le p_1(z)\zeta
или
\frac{p_2(z)}{p_1(z)} \le c(w, \zeta) = \frac{\zeta}{w(1 - \zeta)}. ( 18.3)

Таблица 4.3.
Матрица потерь Решения статистика: Нуль-гипотезу
Состояния природы: Нуль гипотеза Отвергнуть ( a=1 ) Принять ( a=2 )
Не верна (\omega = 1) } Ошибки нет L(1,1)=0 Ошибка 2 рода L(1,2)=1
Верна (\omega=2) Ошибка 1 рода L(2,1)=w Ошибки нет L(2,2)=0

Условие (18,3) выделяет точки z\in Z, которым сопоставляется решение az=1, определяемое байесовской решающей функцией d_\zeta. При этом az=2, если для соответствующего значения z условие (18,3) не выполняется. Следовательно, байесовская стратегия d_\zeta может быть задана разбиением множества исходов Z из (17.7) на подмножества Q1 и Q2 из (17.3), где

\begin{gathered}
Q_1 = \{z \in Z\colon \frac{p_2(z)}{p_1(z)} \le c(w,\zeta)\},\\
Q_2 = \{z \in Z\colon \frac{p_2(z)}{p_1(z)} > c(w,\zeta)\},
\end{gathered} ( 18.4)
и c(w, \zeta) из (18.3).

Определение 4.1 ( критической области критерия). Для именования стратегий (или решающих функций) статистика используется также и более старый термин статистический критерий (или просто критерий). При этом множество Q1 исходов z \in Z, наблюдение которых ведет к отвержению нуль-гипотезы в соответствии с некоторым критерием d\in D, называется критической областью этого критерия

Заметим, что в силу принятого условия n=2, разбиение множества исходов Z на подмножества из (17.13) содержит лишь два элемента Q1 и Q2, т.е.

Z = Q_1 \cup Q_2. ( 18.5)
Следовательно, критическая область Q_1 \subset Z полностью определяет соответствующий критерий d \in D.

В дальнейшем для выделения критических областей, соответствующих байесовским критериям d_\xi, \xi \in S_2, будем обозначать определяющие их критические области из (18.3) символом Q_\zeta, где \zeta из (18.2).

Замечание 4.3. (о проверках по отношению правдоподобия ).

Отношение вероятностей p2(z) и p1(z) из левой части правила (18.3) называют отношением правдоподобия, поскольку сами эти вероятности, характеризующие частоты исходов испытаний, первоначально именовались функциями правдоподобия. Поэтому правила выбора решений, основанные на условиях типа (18.3), получили название проверок по отношению правдоподобия.

Идея использования отношений правдоподобия для выбора простой гипотезы (при простой альтернативе) путем сравнения этого отношения с некоторой положительной константой c возникла независимо от концепции байесовских решений, минимизирующих ожидаемые потери. В ее основе лежит простое соображение, согласно которому при p2(z)/p1(z)<1 более правдоподобно, что исход z\in Z соответствует случайной величине с распределением p1(z). При этом, учитывая разный характер последствий, связанных с различными ошибочными решениями, а также (обычно имеющееся) различие частот появления состояний \omega = 1 и \omega= 2, значение константы сравнения c могло быть выбрано отличным от 1.

Таким образом, байесовский критерий d_\xi, задаваемый критической областью Q_\zeta из (18.4), относится к классу проверок по отношению правдоподобия. При этом рассмотренный байесовский подход позволяет дать содержательную интерпретацию значений константы c = c(w, \zeta).

Поскольку при любой функции потерь вида (18.1) значение величины c = c(w, \zeta) из (18.3) пробегает весь диапазон 0\le c < \infty при изменении вероятности \zeta от нулевого до единичного значений, то класс всех проверок по отношению правдоподобия совпадает с классом всех байесовских критериев d_\xi, \xi \in \Xi = S_2.

< Лекция 18 || Лекция 19: 1234 || Лекция 20 >
Михаил Агапитов
Михаил Агапитов
ВКР
Подобед Александр
Подобед Александр
Как оплатить обучение?
Гаральд Егоркин
Гаральд Егоркин
Россия
Михаил Алексеев
Михаил Алексеев
Россия, Уфа, УГАТУ, 2002