Опубликован: 25.12.2006 | Уровень: специалист | Доступ: платный
Лекция 9:

Извлечение знаний с помощью нейронных сетей

< Лекция 8 || Лекция 9: 12345 || Лекция 10 >

Исправление данных

Итак, перед извлечением правил из нейронной сети производится ее обучение и прореживание. Упомянем еще об одной процедуре, которая иногда осуществляется при извлечении знаний из нейронных сетей - исправление (очищение). Подобная операция была предложена Вайгендом и коллегами и по сути используется параллельно с обучением (Weigend, Zimmermann, & Neuneier 1996). Гибридное использование обучения и исправления данных носит название CLEARNING (CLEARING+LEARNING). Данная процедура включает восходящий процесс обучения, при котором данные изменяют связи в нейронной сети и нисходящий процесс, в котором нейронная сеть изменяет данные, на которых производится обучение. Ее достоинствами являются выявление и удаление информационных записей, выпадающих из общей структуры обучающей выборки, а также замена искаженных данных и данных с лакунами на исправленные величины. При использовании данной процедуры происходит торг между доверием к данным и доверием к нейросетевой модели, обучаемой на этих данных. Эта конкуренция составляет существо так называемой дилеммы наблюдателя и наблюдений.

Способность работать с неточными данными является одним из главных достоинств нейронных сетей. Но она же парадоксальным образом является и их недостатком. Действительно, если данные не точны, то сеть в силу своей гибкости и адаптируемости будет подстраиваться к ним, ухудшая свои свойства обобщения. Эта ситуация особенно важна при работе с финансовыми данными. В последнем случае существует множество источников погрешности. Это и ошибки при вводе числовых значений или неправильная оценка времени действия ценных бумаг (например, они уже не продаются). Кроме того, если даже данные и введены правильно, они могут быть слабыми индикаторами основополагающих экономических процессов, таких как промышленное производство или занятость. Наконец, возможно, что многие важные параметры не учитываются при обучении сети, что эффективно может рассматриваться как введение дополнительного шума. Данные, далеко выпадающие из общей тенденции, забирают ресурсы нейронной сети. Некоторые из нейронов скрытого слоя могут настраиваться на них. При этом ресурсов для описания регулярных слабо зашумленных областей может и не хватить. Множество попыток применения нейронных сетей к решению финансовых задач выявило важное обстоятельство: контроль гибкости нейросетевой модели является центральной проблемой. Изложим кратко существо процедуры обучения сети, объединенной с исправлением данных. Для простоты рассмотрим сеть с одним входом и одним выходом. В этом случае минимизируемой величиной является сумма двух слагаемых (Weigend & Zimmermann, 1996):

E=\frac{1}{2}\eta(y-y^d)+\frac{1}{2}k(x-x^d).

Первый член описывает обычно минимизируемое в методе обратного распространения ошибки квадратичное отклонение выхода нейронной сети y=y(x,w) от желаемого значения y^d. Второе слагаемое представляет собой квадратичное отклонение исправленного входного значения x от реального его значения x^d. Соответственно, для весов сети w и для исправленных входных значений x получаются два правила их модификации. Для весов оно такое же, как и в стандартном методе обратного распространения ошибки, а для исправленного входа имеет вид

x_{i+1}=x_i-\frac{\partial E}{\partial x},
где индекс определяет номер итерации данного входа. Представляя в виде суммы подлинного начального входного значения и поправки, получим для последней следующее уравнение итерационного изменения
\triangle_{i+1}=(1-k)\triangle_i-\eta(y-y^d)\frac{\partial y}{\partial x}.

Это уравнение включает

  • экспоненциальное затухание \triangle: в отсутствие нового входа \triangle стремится к нулю со скоростью пропорциональной (1-k) k\in [0,1].
  • член, пропорциональный ошибке выходного значения (y-y^d): аналогичная пропорциональность свойственна и обычному соотношению для модификации весов - чем больше ошибка, тем больше ее влияние на исправление входного значения. Этот член также пропорционален чувствительности выхода ко входу - \partial y/\partial x.

Вайгенд и его коллеги предложили наглядную механическую интерпретацию минимизируемой функции, а также отношению скоростей обучения и исправления (см. рисунок 9.4).


Рис. 9.4.

При обычном обучении (без исправления входного вектора) данные располагаются в пространстве вход-выход. Наблюдаемое выходное значение состояния выходного нейрона может рассматриваться как поверхность над пространством входов. Точки, изображающие данные обучающего набора вертикально прижимаются к этой поверхности пружинами, которые запасают некоторую энергию сжатия. Сложность нейронной сети определяется в конкуренции между жесткостью поверхности и жесткостью пружин. В одном из предельных случаев, бесконечно мягкая сеть (поверхность) пройдет как раз через все точки, определяемые данными. В противоположном случае, чрезмерно эластичные пружины не будут оказывать воздействия на поверхность и менять нейронную сеть.

Введение механизма исправления данных соответствует добавлению пружин в пространстве входов - между каждой точкой данных x^d и исправленным значением x. Энергия, запасенная в этих пружинах составляет k\triangle^2/2. Минимизация суммарной функции ошибки соответствует минимизации полной энергии, запасенной в обеих типах пружин. Отношение \eta описывает конкуренцию между важностью ошибок выхода и важностью ошибок входа.

< Лекция 8 || Лекция 9: 12345 || Лекция 10 >
Дмитрий Степаненко
Дмитрий Степаненко
Россия
Ярославй Грива
Ярославй Грива
Россия, г. Санкт-Петербург