Опубликован: 13.09.2006 | Уровень: специалист | Доступ: платный | ВУЗ: Новосибирский Государственный Университет
Лекция 7:

Градиентные алгоритмы обучения сети

< Лекция 6 || Лекция 7: 123 || Лекция 8 >

Учет ограничений при обучении

Для параметров сети возможны ограничения простейшего вида:

\begin{align*}
w_{i\min} \le  w_i \le w_{i\max}.
\end{align*}

Они вводятся из различных соображений: чтобы избежать слишком крутых или, наоборот, слишком пологих характеристик нейронов, чтобы предотвратить появления слишком больших коэффициентов усиления сигнала на синапсах и т.п.

Учесть ограничения можно, например, методом штрафных функций либо методом проекций:

  • Использование метода штрафных функций означает, что в оценку E добавляется штрафы за выход параметров из области ограничений. В~градиент E вводятся производные штрафных функций.
  • Проективный метод означает, что если в сети предлагается изменение параметров w_i\colon = W_i и W_i для некоторых i выходит за ограничения, то следует положить
\begin{align*}
w_i\colon =
  \left \{
\begin{array}{rcl}
    W_i,\quad  \mbox{ если }& w_{i\min} \le W_i \le w_{i\max}\\
     w_{i\max},\quad \mbox{ если }& W_i > w_{i\max}\\
     w_{i\min},\quad \mbox{ если }& W_i < w_{i\min}\\
  \end{array}
 \right.
\end{align*}

Практика показывает, что проективный метод не приводит к затруднениям. Обращение со штрафными функциями менее успешно. Далее будем считать, что ограничения учтены одним из методов, и будем говорить об обучении как о безусловной минимизации.

Выбор направления минимизации

Пусть задано начальное значение вектора параметров w^0 и вычислена функция оценки E=E(w^0). Процедура одномерной оптимизации дает приближенное положение минимума e(x)=E(w^0+xs) (вообще говоря, локального).

Наиболее очевидный выбор направления s для одномерной оптимизации - направление антиградиента E:

\begin{align*}
s = -\nabla E.
\end{align*}

Выберем на каждом шаге это направление, затем проведем одномерную оптимизацию, потом снова вычислим градиент E и т.д. Это - метод наискорейшего спуска, который иногда работает хорошо. Но неиспользование информации о кривизне функции оценки (целевой функции) и резкое замедление минимизации в окрестности точки оптимального решения, когда градиент принимает очень малые значения, часто делают алгоритм наискорейшего спуска низкоэффективным.

Другой способ - случайный выбор направления s для одномерной оптимизации. Он требует большого числа шагов, но зато предельно прост — ему необходимо только прямое функционирование сети с вычислением оценки.

< Лекция 6 || Лекция 7: 123 || Лекция 8 >
Ирина Ткаченко
Ирина Ткаченко
Россия, Москва
Николай Ткаченко
Николай Ткаченко
Россия