Опубликован: 25.12.2006 | Доступ: свободный | Студентов: 1884 / 400 | Оценка: 4.43 / 4.13 | Длительность: 15:29:00
Специальности: Программист, Экономист
Лекция 9:

Извлечение знаний с помощью нейронных сетей

< Лекция 8 || Лекция 9: 12345 || Лекция 10 >

Извлечение правил из нейронных сетей

Рассмотрим один из методов извлечения правил из нейронных сетей, обученных решению задачи классификации (Lu, Setiono and Liu, 1995). Этот метод носит название NeuroRule. Задача состоит в классификации некоторого набора данных с помощью многослойного персептрона и последующего анализа полученной сети с целью нахождения классифицирующих правил, описывающих каждый из классов. Пусть A обозначает набор из N свойств A1,A2...AN, а {a} - множество возможных значений, которое может принимать свойство Ai. Обозначим через С множество классов c1,c2...cN. Для обучающей выборки известны ассоциированные пары векторов входных и выходных значений (a1...am,ck), где ck \in C. Алгоритм извлечения классифицирующих правил включает три этапа:

  1. Обучение нейронной сети. На этом первом шаге двухслойный персептрон тренируется на обучающем наборе вплоть до получения достаточной точности классификации.
  2. Прореживание (pruning) нейронной сети. Обученная нейронная сеть содержит все возможные связи между входными нейронами и нейронами скрытого слоя, а также между последними и выходными нейронами. Полное число этих связей обычно столь велико, что из анализа их значений невозможно извлечь обозримые для пользователя классифицирующие правила. Прореживание заключается в удалении излишних связей и нейронов, не приводящем к увеличению ошибки классификации сетью. Результирующая сеть обычно содержит немного нейронов и связей между ними и ее функционирование поддается исследованию.
  3. Извлечение правил. На этом этапе из прореженной нейронной сети извлекаются правила, имеющие форму если ( a1 \otimes q1 ) и ( a2 \otimes q2 ) и ... и ( an \otimes qn ), то cj, где qj - константы, \otimes - оператор отношения ( =,\geq,\leq,>,< ). Предполагается, что эти правила достаточно очевидны при проверке и легко применяются к большим базам данных.

Рассмотрим все эти шаги более подробно.

Обучение нейронной сети

Предположим, что обучающий набор данных необходимо расклассифицировать на два класса A и B. В этом случае сеть должна содержать N входных и 2 выходных нейрона. Каждому из классов будут соответствовать следующие активности выходных нейронов (1,0) и (0,1). Подходящее количество нейронов в промежуточном слое, вообще говоря, невозможно определить заранее - слишком большое их число ведет к переобучению, в то время как малое не обеспечивает достаточной точности обучения. Тем не менее, как уже отмечалось ранее, все методы адаптивного поиска числа нейронов в промежуточном слое делятся на два класса, в соответствии с тем, с малого или большого числа промежуточных нейронов стартует алгоритм. В первом случае по мере обучения в сеть добавляются дополнительные нейроны, в противоположном - после обучения происходит уничтожение излишних нейронов и связей. NeuroRule использует последний подход, так что число промежуточных нейронов выбирается достаточно большим. Заметим, что NeuroRule уничтожает также и избыточные входные нейроны, влияние которых на классификацию мало.

В качестве функции активации промежуточных нейронов используется гиперболический тангенс, так что их состояния изменяются в интервале [-1,1]. В то же время, функцией активации выходных нейронов является функция Ферми (состояния в интервале [0,1] ). Обозначим через o_i^k, (i=1,2) - состояния выходных нейронов при предъявлении на вход сети вектора признаков k -го объекта x^k. Будем считать, что этот объект правильно классифицирован сетью, если

\max_i|o_i^k-t_i^k|\leq\eta_1,
где: t_1^k=1 если x^k\in A и t_2^k=1 если x^k \in B, а 0<\eta <0.5. В остальных случаях t_i^k=0.

Минимизируемая функция ошибки должна не только направлять процесс обучения в сторону правильной классификации всех объектов обучающей выборки, но и делать малыми значения многих связей в сети, чтобы облегчить процесс их прореживания. Подобную технологию - путем добавления к функции ошибки специально подобранных штрафных членов - мы уже разбирали в "Обучение с учителем: Распознавание образов" . В методе NeuroRule функция ошибка включает два слагаемых

E=E_0+\varepsilon E_1,
где
E_0=-\sum_k\sum_i (t^k_i\log o_i^k+(1-o_i^k)\log(1-o_i^k))
функция взаимной энтропии, минимизация которой происходит быстрее, чем минимизация среднеквадратичной ошибки. Штрафная функция
E_1=\sum_{j=1}^N\sum_{l=1}^N_A\frac{(w_{lj}^h)^2}{1+(w_{lj}^h)^2}+\sum_{l=1}^{N_h}\sum_{i=1}^2\frac{(w^o_{il})^2}{1+(w_{il}^o)^2}
уже фигурировала в "Обучение с учителем: Распознавание образов" .

Здесь N_h - число нейронов в скрытом слое, w_{li}^h - величина связи, между j -м входным и lскрытым нейронами w_{il}^o - вес связи между l -м скрытым и i -м выходным нейронами.

Использование регуляризирующего члена E_1 приводит к дифференциации весов по величинам, уменьшая большинство, но сохраняя значения некоторых из них. Обучение сети производится методом обратного распространения ошибки.

Прореживание нейронной сети

Полное число связей в обученной сети составляет (N+N_o)N_h. Можно показать, что связь между входным и промежуточным нейроном w^h_{lj} можно удалить без снижения точности классификации сетью при выполнении условий \max_i |w^o_{i,l}w^h_{l,j}|4\leq\eta_2 и \eta_1+\eta_2<0.5. Аналогичным образом, удаление связи w^o_{i,l} не влияет на качество классификации если |w^o_{i,l}|\leq 4\eta_2.

< Лекция 8 || Лекция 9: 12345 || Лекция 10 >