Опубликован: 13.09.2006 | Уровень: специалист | Доступ: платный | ВУЗ: Новосибирский Государственный Университет
Лекция 6:

Многослойные сети сигмоидального типа

< Лекция 5 || Лекция 6: 1234 || Лекция 7 >

Одномерная оптимизация

Все пошаговые методы оптимизации состоят из двух важнейших частей:

  • выбора направления,
  • выбора шага в данном направлении (подбор коэффициента обучения).

Методы одномерной оптимизации дают эффективный способ для выбора шага.

В простейшем случае коэффициент обучения фиксируется на весь период оптимизации. Этот способ практически используется только совместно с методом наискорейшего спуска. Величина подбирается раздельно для каждого слоя сети по формуле

\alpha \le   min(1/n_i),

где n_i обозначает количество входов i -го нейрона в слое.

Более эффективный метод основан на адаптивном подборе коэффициента \alpha с учетом фактической динамики величины целевой функции. Стратегия изменения значения \alpha определяется путем сравнения суммарной погрешности \varepsilon на t -й итерации с ее предыдущим значением, причем рассчитывается по формуле

\varepsilon = [ \sum_{i=1}^M (y_i - d_i)^2]^{1/2}.

Для ускорения процесса обучения следует стремиться к непрерывному увеличению \alpha при одновременном контроле прироста погрешности \varepsilon по сравнению с ее значением на предыдущем шаге. Незначительный рост погрешности считается допустимым.

Если погрешности на t -1-й и t -й итерациях обозначить соответственно \varepsilon_{t-1} и \varepsilon_t, а коэффициенты обучения на этих же итерациях — \alpha_{t-1} и \alpha_t, то значение \varepsilon_{t+1} следует рассчитывать по формуле

\alpha_{t+1} = \alpha_t \rho_d, \t{ если }  \varepsilon_t > k_w 
\varepsilon_{t-1},
\alpha_{t+1} = \alpha_t \rho_i, \t{ если }  \varepsilon_t \le   k_w 
\varepsilon_{t-1}.

где k_w - коэффициент допустимого прироста погрешности, \rho_d - коэффициент уменьшения \alpha, \rho_i - коэффициент увеличения \alpha.

Наиболее эффективный, хотя и наиболее сложный, метод подбора коэффициентов обучения связан с направленной минимизацией целевой функции в выбранном направлении s_t. Необходимо так подобрать значение \alpha_t, чтобы новое решение w_{t+1}=w_t+
\alpha_t s_t соответствовало минимуму целевой функции в данном направлении s_t.

Поиск минимума основан на полиномиальной аппроксимации целевой функции. Выберем для аппроксимации многочлен второго порядка

E(w) = P_2(\alpha) = a_2 \alpha^2 + a_1 \alpha + a_0,

где a_2, a_1 и a_0коэффициенты, определяемые в цикле оптимизации. Для расчета этих коэффициентов используем три произвольные точки w_1, w_2, w_3, лежащие в направлении s_t, т.е.

w_i = w + \alpha_i s_t,\quad i = 1,2,3.

Соответствующие этим точкам значения целевой функции E(w) обозначим как

\begin{equation}
 P_2(\alpha_i) = E_i = E(w_i),\quad i = 1,2,3.
\end{equation} ( 5)

Коэффициенты a_2, a_1 и a_0 рассчитываются в соответствии с решением системы уравнений (5). Для определения минимума многочлена P_2(\alpha) его производная dP_2/d\alpha = 2a_2 \alpha + a_1 приравнивается к нулю, что позволяет получить \alpha_{min} = - a_1/2a_2. После подстановки выражений для E_1, E_2, E_3 в формулу для \alpha_{min} получаем

\alpha_{min} = \alpha_2 - [( \alpha_2 - \alpha_1)^2 (E_2-E_3)-\\
- (\alpha_2 -
 \alpha_3)^2(E_2-E_1)]/2[(\alpha_2 - \alpha_1)(E_2-E_3)-(\alpha_2 -
\alpha_3)(E_2-E_1)].
< Лекция 5 || Лекция 6: 1234 || Лекция 7 >
Ирина Ткаченко
Ирина Ткаченко
Россия, Москва
Николай Ткаченко
Николай Ткаченко
Россия