Азербайджан |
Обучение по прецедентам (по Вапнику, Червоненкису)
12.1. Задача построения классификатора
Пусть
-
– пространство образов,
-
– признаковое пространство,
-
– индикаторная функция,
-
– множество признаков.
Тогда .
Пусть также
-
– множество прецедентов,
-
– решающее правило.
Тогда
Выбор решающего правила исходит из минимизации ,
где
– метрика, мера близости функций
и
.
Построение
называют задачей обучения.
– это ученик,
процедура формирования – это учитель, прецеденты – это обучающая последовательность.
12.2. Качество обучения классификатора
Относительная доля несовпадений классификации с учителем для
решающего правила есть: , где
.
Надежность обучения классификатора – это вероятность получения решающего правила с заданным качеством.
Пусть – класс дискриминантных функций,
где
– параметр. Число степеней свободы при
выборе конкретной функции в классе определяется количеством
параметров в векторе
, т.е. размерностью
.
Например, для классов линейных и квадратичных функций имеем:
Линейная дискриминантная функция: .
В таком случае имеем
степень свободы.
Квадратичная дискриминантная функция: .
В таком случае имеем
степеней свободы.
С увеличением степеней свободы увеличивается способность классификатора по разделению.
12.3. Вероятностная модель
Пусть прецеденты – это результат реализации случайных величин. Рассмотрим величину риска (т.е. ошибки) связанной с классификацией. Определим понятия риск среднего и риска эмпирического.
Пусть на заданы
-алгебра и мера
.
Пусть также
-
– вектор признаков,
-
– класс функций, из которых выбирается решающее правило,
-
– решающее правило (результат классификации), которое принимает значение 0 или 1 при фиксированном векторе параметра,
-
– характеристическая функция множества,
-
– множество параметров, описывающие различные функции в
.
Тогда , где
и
,
.
В данных обозначениях средний риск выглядит следующим образом:

Для случая двух классов, при , имеем:




12.4. Задача поиска наилучшего классификатора
Рассмотрим минимизацию функционала:

Задача же поиска наилучшего классификатора состоит в нахождении такого, что

Если же минимума не существует, то надо найти такое, что

Другими словами, необходимо решить задачу минимизации среднего риска.
Поскольку неизвестно, будем решать задачу минимизации
эмпирического риска. Пусть
– число прецедентов. Тогда эмпирический
риск задается выражением:

Таким образом, задача минимизации эмпирического риска выглядит так:


В идеале надо получить взаимосвязанные оценки эмпирического и среднего риска.
Отметим, что чем меньше , тем легче построить
такую,
что
обращается в ноль, либо очень мало. Но при этом истинное
значение
может сильно отличаться от
.
Необходимо выбрать
такую, чтобы имела
место равномерная сходимость по
выражения:
![P
\left\{
\sup_{\alpha}
\left|
K_{\textit{эмп}}(\alpha)-K(\alpha)
\right|
>\varepsilon
\right\}
\xrightarrow[l\rightarrow\infty]{\phantom{0}} 0.](/sites/default/files/tex_cache/aa6f765795f81ef44d2c15efa65ebca3.png)
Фактически это есть сходимость частот к математическому ожиданию.
В дальнейшем будем считать, что в зависимости от конкретного
набора прецедентов можем получить любые . Но необходимо, чтобы
полученные эмпирическое решающее хорошо работало (отражало общие
свойства) для всех образов. Поэтому в формуле присутствует равномерная
сходимость.