Универсальный путь обучения
Существует универсальный путь обучения нейронных сетей - минимизация
оценки как неявно заданной функции параметров сети. При реализации этого
подхода предполагается, что:
- задана обучающая выборка, состоящая из
векторов входных сигналов
\[
x^p
\]
;
- известны требования к соответствующим
выходным сигналам
\[
y^p
\]
, зафиксированные в функции оценки
\[
E(y^p)
\]
;
- оценка
\[
E
\]
по всей выборке или какой-либо ее части строится
известным способом по
значениям
\[
E(y^p)
\]
.
После подготовки (создание обучающей выборки, выбор
функции оценки, предобработка входных данных и т.п.), предшествующей
обучению, имеем способ вычисления некоторой функции
\[
E
\]
,
минимизация которой
как функции параметров настроит сеть для правильной работы.
Особенности задачи оптимизации, возникающей при обучении нейронных
сетей
Задачи оптимизации
нейронных сетей имеют ряд специфических
ограничений. Они связаны с огромной размерностью задачи обучения. Число
параметров может достигать
\[
10^8
\]
и более. В простейших
программных имитаторах
на персональных компьютерах подбирается
\[
10^3
\]
-
\[
10^4
\]
параметров. Из-за высокой
размерности возникают два требования к алгоритму:
- Ограничение по
памяти. Пусть
\[
n
\]
- число параметров. Если алгоритм
требует затрат памяти порядка
\[
n^2
\]
, то он вряд ли применим для
обучения.
Желательно иметь алгоритмы, которые требуют затрат памяти
\[
kn,
k=const
\]
.
- Возможность параллельного вычисления наиболее трудоемких
этапов
алгоритма, и желательно нейронной сетью.
- Обученный
нейрокомпьютер должен с приемлемой точностью решать все
тестовые задачи. Поэтому задача обучения становится многокритериальной
задачей оптимизации: нужно найти точку общего минимума большого числа
функций. Обучение нейрокомпьютера исходит из гипотезы о существовании этой
точки.
- Обученный нейрокомпьютер должен иметь возможность приобретать новые
навыки без утраты старых. Возможно более слабое требование: новые
навыки
могут сопровождаться потерей точности в старых, но потеря не должна быть
существенной. Это означает, что в достаточно большой окрестности найденной
точки общего минимума оценок их значения незначительно отличаются от
минимальных. Итак, имеем четыре специфических ограничения, выделяющих
обучение нейрокомпьютера из общих задач оптимизации:
- астрономическое число параметров;
- необходимость высокого параллелизма при обучении;
- многокритериальность решаемых задач;
- необходимость найти достаточно широкую область, в которой значения всех
минимизируемых функций близки к минимальным.