НОУ ИНТУИТ | Нейрокомпьютерные системы. Лекция 7: Градиентные алгоритмы обучения сети

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Вам нравится? Нравится 20 студентам

| Поделиться |

Поддержать программу

Учет ограничений при обучении

Для параметров сети возможны ограничения простейшего вида:

$\begin{align*} w_{i\min} \le w_i \le w_{i\max}. \end{align*}$

Они вводятся из различных соображений: чтобы избежать слишком крутых или, наоборот, слишком пологих характеристик нейронов, чтобы предотвратить появления слишком больших коэффициентов усиления сигнала на синапсах и т.п.

Учесть ограничения можно, например, методом штрафных функций либо методом проекций:

Использование метода штрафных функций означает, что в оценку добавляется штрафы за выход параметров из области ограничений. В~градиент вводятся производные штрафных функций.
Проективный метод означает, что если в сети предлагается изменение параметров $w_i\colon = W_i$ и для некоторых выходит за ограничения, то следует положить

$\begin{align*} w_i\colon = \left \{ \begin{array}{rcl} W_i,\quad \mbox{ если }& w_{i\min} \le W_i \le w_{i\max}\\ w_{i\max},\quad \mbox{ если }& W_i > w_{i\max}\\ w_{i\min},\quad \mbox{ если }& W_i < w_{i\min}\\ \end{array} \right. \end{align*}$

Практика показывает, что проективный метод не приводит к затруднениям. Обращение со штрафными функциями менее успешно. Далее будем считать, что ограничения учтены одним из методов, и будем говорить об обучении как о безусловной минимизации.

Выбор направления минимизации

Пусть задано начальное значение вектора параметров w^0 и вычислена функция оценки E=E(w^0) . Процедура одномерной оптимизации дает приближенное положение минимума e(x)=E(w^0+xs) (вообще говоря, локального).

Наиболее очевидный выбор направления для одномерной оптимизации - направление антиградиента :

$\begin{align*} s = -\nabla E. \end{align*}$

Выберем на каждом шаге это направление, затем проведем одномерную оптимизацию, потом снова вычислим градиент и т.д. Это - метод наискорейшего спуска, который иногда работает хорошо. Но неиспользование информации о кривизне функции оценки (целевой функции) и резкое замедление минимизации в окрестности точки оптимального решения, когда градиент принимает очень малые значения, часто делают алгоритм наискорейшего спуска низкоэффективным.

Другой способ - случайный выбор направления для одномерной оптимизации. Он требует большого числа шагов, но зато предельно прост — ему необходимо только прямое функционирование сети с вычислением оценки.

Дальше >>

Нейрокомпьютерные системы

Градиентные алгоритмы обучения сети

Учет ограничений при обучении

Выбор направления минимизации

Вопросы и ответы

Студенты

Авторизоваться

Нейрокомпьютерные системы

Градиентные алгоритмы обучения сети

Учет ограничений при обучении

Выбор направления минимизации

Вопросы и ответы

Студенты