Московский государственный университет имени М.В.Ломоносова
Опубликован: 30.04.2008 | Доступ: свободный | Студентов: 1616 / 252 | Оценка: 4.24 / 3.92 | Длительность: 14:56:00
Специальности: Математик
Лекция 2:

Классификация на основе байесовской теории решений

< Лекция 1 || Лекция 2: 12345 || Лекция 3 >
Аннотация: Данная лекция рассматривает классификацию на основе байесовской теории решений. Приведены основные теоремы, определения и примеры практической реализации байесовского метода

2.1. Байесовский подход

Байесовский подход исходит из статистической природы наблюдений. За основу берется предположение о существовании вероятностной меры на пространстве образов, которая либо известна, либо может быть оценена. Цель состоит в разработке такого классификатора, который будет правильно определять наиболее вероятный класс для пробного образа. Тогда задача состоит в определении "наиболее вероятного" класса.

Задано M классов \Omega_1,\Omega_2,\ldots,\Omega_M, а также P(\Omega_i|x), \; i=1,2,\ldots,Mвероятность того, что неизвестный образ, представляемый вектором признаков x, принадлежит классу \Omega_i.

P(\Omega_i|x) называется апостериорной вероятностью, поскольку задает распределение индекса класса после эксперимента ( a posteriori – т.е. после того, как значение вектора признаков x было получено).

Рассмотрим случай двух классов \Omega_1 и \Omega_2. Естественно выбрать решающее правило таким образом: объект относим к тому классу, для которого апостериорная вероятность выше. Такое правило классификации по максимуму апостериорной вероятности называется Байесовским: если P(\Omega_1|x)>P(\Omega_2|x), то x классифицируется в \Omega_1, иначе в \Omega_2. Таким образом, для Байесовского решающего правила необходимо получить апостериорные вероятности P(\Omega_i|x),\; i=1,2. Это можно сделать с помощью формулы Байеса.

Формула Байеса, полученная Т. Байесом, позволяет вычислить апостериорные вероятности событий через априорные вероятности и функции правдоподобия (была опубликована в 1763 году, через два года после смерти автора).

Пусть A_1,A_2,\ldots,A_nполная группа несовместных событий. \bigcup_{i=1}^n A_i=\Omega. A_i\cap A_j=\oslash, при i\neq j. Тогда апостериорная вероятность имеет вид:

P(A_i|B)=\frac{P(A_i)P(B|A_i)}{\sum_{i=1}^n P(A_i)P(B|A_i)} ,
где P(A_i) – априорная вероятность события A_i, P(B|A_i) – условная вероятность события B при условии, что произошло событие A_i.

Рассмотрим получение апостериорной вероятности P(\Omega|x), зная P(\Omega) и P(x|\Omega).

\begin{gathered}
P(AB)=P(A|B)P(B), \; P(AB)=P(B|A)P(A) \\
P(A|B)P(B)=P(B|A)P(A) \\
P(B|A)=\frac{P(A|B)P(B)}{P(A)}
\end{gathered}

Если P(A) и P(A|B) описываются плотностями p(x) и p(x|B), то

P(B|x)=\frac{p(x|B)P(B)}{p(x)}\Rightarrow P(\Omega_i|x)=\frac{p(x|\Omega_i)P(\Omega_i)}{p(x)}.

При проверке классификации сравнение P(\Omega_1|x) и P(\Omega_2|x) эквивалентно сравнению p(x|\Omega_1)P(\Omega_1) и p(x|\Omega_2)P(\Omega_2). В случае, когда P(\Omega_1|x)=P(\Omega_2|x), считается, что мера множества x равна нулю.

Таким образом, задача сравнения по апостериорной вероятности сводится к вычислению величин P(\Omega_1), P(\Omega_2), p(x|\Omega_1), p(x|\Omega_2). Будем считать, что у нас достаточно данных для определения вероятности принадлежности объекта каждому из классов P(\Omega_i), \; i=1,2. Такие вероятности называются априорными вероятностями классов. А также будем считать, что известны функции распределения вектора признаков для каждого класса P(x|\Omega_1), i=1,2. Они называются функциями правдоподобия x по отношению к \Omega_i. Если априорные вероятности и функции правдоподобия неизвестны, то их можно оценить методами математической статистики на множестве прецедентов. Например, P(\Omega_i)\approx\frac{N_i}{N}, где N_i – число прецедентов из \Omega_i, \; i=1,2. N – общее число прецедентов. P(x|\Omega_i) может быть приближено гистограммой распределения вектора признаков для прецедентов из класса \Omega_i.

Итак, Байесовский подход к статистическим задачам основывается на предположении о существовании некоторого распределения вероятностей для каждого параметра. Недостатком этого метода является необходимость постулирования как существования априорного распределения для неизвестного параметра, так и знание его формы.

< Лекция 1 || Лекция 2: 12345 || Лекция 3 >