Азербайджан |
Контекстно-зависимая классификация
9.1. Постановка задачи
Рассмотренные ранее задачи предполагали, что нет зависимости между
различными классами, т.е. имея вектор из класса
, мы могли получить
следующий вектор из любого класса. Далее мы будем предполагать
зависимость классов, т.е. классификация каждого нового вектора
осуществляется в зависимости от классификации предыдущих векторов.
Выбор класса, к которому следует отнести вектор, зависит от его
собственного значения, значений других векторов, существующих
отношений между различными классами.
Такие задачи возникают во многих приложениях: распознавание речи, обработка изображений и др.
Эта классификация называется контекстно-зависимой.
Отправной точкой является Байесовский классификатор. Но зависимость
между различными классами требует более общей формулировки проблемы.
Общая информация, которая присутствует в векторах, требует, чтобы
классификация была выполнена с использованием всех векторов
одновременно и также была организованна в той же последовательности, в
которой получена в экспериментах. Поэтому мы будем называть вектор
признаков наблюдением, выстроенным в последовательность из
наблюдений.
9.2. Байесовский классификатор
Пусть – последовательность
наблюдений и
– классы, в
которые эти вектора можно классифицировать. Пусть также
– одна из
возможных последовательностей соответствия классов последовательности
наблюдений, где
,
.
Общее число таких последовательностей классов
есть
.
Задача заключается в том, чтобы решить, к какой последовательности классов отнести
последовательность наблюдений. Это эквивалентно отнесению
к
,
к
и т.д.
Подходом к решению проблемы является рассмотрение каждой конкретной
последовательности как расширенного вектора признаков на
как на возможных классах.
В данном случае Байесовское правило
![P(\Omega_i|X)>P(\Omega_j|X),\text{ при } i\neq j](/sites/default/files/tex_cache/de8c9ca0ac6647a437c109165831198c.png)
![P(\Omega_i)p(X|\Omega_i)>P(\Omega_j)p(X|\Omega_j),\text{ при } i\neq j.](/sites/default/files/tex_cache/f4815636a61d5750c03bf18c4e7e92ed.png)
9.3. Модель Марковской цепи
Одна из наиболее используемых моделей, описывающих зависимость
классов, является правило Марковской цепи. Если есть
последовательность классов, то Марковская модель предполагает, что
![P(\omega_{i_k}|\omega_{i_{k-1}},\omega_{i_{k-2}},\ldots,\omega_{i_1})=P(\omega_{i_k}|\omega_{i_{k-1}})](/sites/default/files/tex_cache/ee5a5987c685ad7195196f448b1e1e11.png)
Тогда зависимость классов ограничивается только внутри двух последовательных классов. Такой класс моделей называется Марковской моделью первого порядка. Возможны обобщения на второй, третий и т.д. порядок.
Другими словами, даны наблюдения ,
принадлежащие классам
соответственно. Вероятность того, что наблюдение
на шаге
принадлежит классу
, зависит только от того класса, к которому
принадлежит наблюдение
на шаге
.
![P(\Omega_i)=P(\omega_{i_1},\omega_{i_2},\ldots,\omega_{i_N})=
P(\omega_{i_N}|\omega_{i_{N-1}},\omega_{i_{N-2}},\ldots,\omega_{i_1})\cdot
P(\omega_{i_{N-1}}|\omega_{i_{N-2}},\omega_{i_{N-3}},\ldots,\omega_{i_1})\cdot\ldots\cdot P(\omega_{i_1})](/sites/default/files/tex_cache/19b0290d7fc20cb59b38ec5323bb6bf3.png)
![]() |
( 9.1) |
Сделаем два общих предположения:
- в последовательности классов наблюдения статистически независимы;
- функция плотности вероятностей в одном классе не зависит от других классов.
Это означает, что зависимость существует только на последовательности, в которой классы встречаются, но внутри классов наблюдений "подчиняются" собственным правилам. Таким образом, получаем, что
![]() |
( 9.2) |
Комбинируя (9.1) и (9.2), получаем Байесовское правило в виде следующего утверждения.
Байесовское правило: для последовательности наблюдений
векторов проводим их классификацию в соответствующие
последовательности классов
так, чтобы величина
![]() |
( 9.3) |
Поиск требует вычисления последнего выражения для каждого ,
, что, в свою очередь, требует
умножений,
а это очень много. Но существуют пути экономии вычислений. Если в
и
отличаются только последние классы, т.е.
,
при
и
, то большая часть вычислений
дублируется.