НОУ ИНТУИТ | Нейрокомпьютерные системы. Лекция 6: Многослойные сети сигмоидального типа

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

|

Вам нравится? Нравится 20 студентам

| Поделиться |

Поддержать программу

Одномерная оптимизация

Все пошаговые методы оптимизации состоят из двух важнейших частей:

выбора направления,
выбора шага в данном направлении (подбор коэффициента обучения).

Методы одномерной оптимизации дают эффективный способ для выбора шага.

В простейшем случае коэффициент обучения фиксируется на весь период оптимизации. Этот способ практически используется только совместно с методом наискорейшего спуска. Величина подбирается раздельно для каждого слоя сети по формуле

$\alpha \le min(1/n_i),$

где n_i обозначает количество входов -го нейрона в слое.

Более эффективный метод основан на адаптивном подборе коэффициента $\alpha$ с учетом фактической динамики величины целевой функции. Стратегия изменения значения $\alpha$ определяется путем сравнения суммарной погрешности $\varepsilon$ на -й итерации с ее предыдущим значением, причем рассчитывается по формуле

$\varepsilon = [ \sum_{i=1}^M (y_i - d_i)^2]^{1/2}.$

Для ускорения процесса обучения следует стремиться к непрерывному увеличению $\alpha$ при одновременном контроле прироста погрешности $\varepsilon$ по сравнению с ее значением на предыдущем шаге. Незначительный рост погрешности считается допустимым.

Если погрешности на -1-й и -й итерациях обозначить соответственно $\varepsilon_{t-1}$ и $\varepsilon_t$ , а коэффициенты обучения на этих же итерациях — $\alpha_{t-1}$ и $\alpha_t$ , то значение $\varepsilon_{t+1}$ следует рассчитывать по формуле

$\alpha_{t+1} = \alpha_t \rho_d, \t{ если } \varepsilon_t > k_w \varepsilon_{t-1},$

$\alpha_{t+1} = \alpha_t \rho_i, \t{ если } \varepsilon_t \le k_w \varepsilon_{t-1}.$

где k_w - коэффициент допустимого прироста погрешности, $\rho_d$ - коэффициент уменьшения $\alpha, \rho_i$ - коэффициент увеличения $\alpha.$

Наиболее эффективный, хотя и наиболее сложный, метод подбора коэффициентов обучения связан с направленной минимизацией целевой функции в выбранном направлении s_t. Необходимо так подобрать значение $\alpha_t$ , чтобы новое решение $w_{t+1}=w_t+ \alpha_t s_t$ соответствовало минимуму целевой функции в данном направлении s_t.

Поиск минимума основан на полиномиальной аппроксимации целевой функции. Выберем для аппроксимации многочлен второго порядка

$E(w) = P_2(\alpha) = a_2 \alpha^2 + a_1 \alpha + a_0,$

где a_2 , a_1 и a_0 — коэффициенты, определяемые в цикле оптимизации. Для расчета этих коэффициентов используем три произвольные точки w_1, w_2, w_3 , лежащие в направлении s_t , т.е.

$w_i = w + \alpha_i s_t,\quad i = 1,2,3.$

Соответствующие этим точкам значения целевой функции E(w) обозначим как

$\begin{equation} P_2(\alpha_i) = E_i = E(w_i),\quad i = 1,2,3. \end{equation}$

( 5)

Коэффициенты a_2 , a_1 и a_0 рассчитываются в соответствии с решением системы уравнений (5). Для определения минимума многочлена $P_2(\alpha)$ его производная $dP_2/d\alpha = 2a_2 \alpha + a_1$ приравнивается к нулю, что позволяет получить $\alpha_{min} = - a_1/2a_2$ . После подстановки выражений для E_1, E_2, E_3 в формулу для $\alpha_{min}$ получаем