Обучение по прецедентам (по Вапнику, Червоненкису)
12.1. Задача построения классификатора
Пусть
- – пространство образов,
- – признаковое пространство,
- – индикаторная функция,
- – множество признаков.
Тогда .
Пусть также
- – множество прецедентов,
- – решающее правило.
Тогда
Выбор решающего правила исходит из минимизации , где – метрика, мера близости функций и . Построение называют задачей обучения. – это ученик, процедура формирования – это учитель, прецеденты – это обучающая последовательность.
12.2. Качество обучения классификатора
Относительная доля несовпадений классификации с учителем для решающего правила есть: , где . Надежность обучения классификатора – это вероятность получения решающего правила с заданным качеством.
Пусть – класс дискриминантных функций, где – параметр. Число степеней свободы при выборе конкретной функции в классе определяется количеством параметров в векторе , т.е. размерностью .
Например, для классов линейных и квадратичных функций имеем:
Линейная дискриминантная функция: . В таком случае имеем степень свободы.
Квадратичная дискриминантная функция: . В таком случае имеем степеней свободы.
С увеличением степеней свободы увеличивается способность классификатора по разделению.
12.3. Вероятностная модель
Пусть прецеденты – это результат реализации случайных величин. Рассмотрим величину риска (т.е. ошибки) связанной с классификацией. Определим понятия риск среднего и риска эмпирического.
Пусть на заданы -алгебра и мера . Пусть также
- – вектор признаков,
- – класс функций, из которых выбирается решающее правило,
- – решающее правило (результат классификации), которое принимает значение 0 или 1 при фиксированном векторе параметра,
- – характеристическая функция множества,
- – множество параметров, описывающие различные функции в .
Тогда , где и , .
В данных обозначениях средний риск выглядит следующим образом:
Для случая двух классов, при , имеем:
или где – это вероятностная мера на пространстве .12.4. Задача поиска наилучшего классификатора
Рассмотрим минимизацию функционала:
Задача же поиска наилучшего классификатора состоит в нахождении такого, что
Если же минимума не существует, то надо найти такое, что
Другими словами, необходимо решить задачу минимизации среднего риска.
Поскольку неизвестно, будем решать задачу минимизации эмпирического риска. Пусть – число прецедентов. Тогда эмпирический риск задается выражением:
Таким образом, задача минимизации эмпирического риска выглядит так:
где случайные величины мы минимизируем по параметру – любой возможный параметр.В идеале надо получить взаимосвязанные оценки эмпирического и среднего риска.
Отметим, что чем меньше , тем легче построить такую, что обращается в ноль, либо очень мало. Но при этом истинное значение может сильно отличаться от . Необходимо выбрать такую, чтобы имела место равномерная сходимость по выражения:
Фактически это есть сходимость частот к математическому ожиданию.
В дальнейшем будем считать, что в зависимости от конкретного набора прецедентов можем получить любые . Но необходимо, чтобы полученные эмпирическое решающее хорошо работало (отражало общие свойства) для всех образов. Поэтому в формуле присутствует равномерная сходимость.