Опубликован: 25.12.2006 | Доступ: свободный | Студентов: 1853 / 376 | Оценка: 4.43 / 4.13 | Длительность: 15:29:00
Специальности: Программист, Экономист
Лекция 11:

Нейронные сети и ...

Нейронные сети и статистическая физика

Данная тема заслуживает не одной книги и ей действительно посвящена обширнейшая литература. В настоящем курсе лекций мы не можем хоть сколько-нибудь подробно остановится на ней. Рассмотрим кратко лишь применение соответствующих идей к анализу сети Хопфилда. Демонстрация тесной аналогии, существующей между спиновыми стеклами и нейронными сетями, определила массированное и плодотворное вторжение методов статистической физики в теорию нейронных сетей в начале восьмидесятых годов. Сеть Хопфилда со стохастическими нейронами и явилась главной моделью, в которой применение этих методов оказалось наиболее значительным. Это чрезвычайно плодотворное обобщение модели, в некотором смысле эквивалентное переходу к сетям с градуальными нейронами. В нем нейроны являются стохастическими элементами и это обстоятельство открывает путь использованию методов статистической физики для анализа свойств ассоциативной памяти.

Стохастические нейроны

Стохастический нейрон, как и в оригинальной модели Хопфилда, является бинарным - его состояние s_i принимает значения \pm1. Однако то, в какое состояние перейдет нейрон, связано со значением потенциала h_i не однозначно, а случайным образом. Именно, вероятность перехода нейрона в состояния: \pm1, Pr(s_i(t+1)=1)=f(h_1), Pr(s_i(t+1)=-1)=f(-h_1)=1-f(h_i), или иначе

Pr(s_i(t+1))=f(h_1),
где f(h) - распределение Ферми: f(h)=\frac{1}{1+e^{-2\beta h}}, удовлетворяющее необходимым условиям 0<f(h)<1; f(h)+f(-h)=1, и \sigma=T^{-1} - обратная температура. В низкотемпературном пределе распределение Ферми переходит в пороговую функцию, и поведение сети из стохастических нейронов становится аналогичным поведению сети Хопфилда, составленной из обычных бинарных нейронов.

Приближение среднего поля

Поскольку динамика состояний стохастических нейронов является вероятностной, можно интересоваться только средней активностью, или же ожидаемыми значениями их состояний

\langle s_i\rangle=(+1)\langle f(h_i)\rangle+(-1)\langle f(-h_i)\rangle

В силу нелинейности функции Ферми усреднение ее затруднительно, но в приближении среднего поля \langle f(h)\rangle\cong f(\langle h\rangle) можно получить следующую замкнутую систему уравнений.

\langle s_i\rangle\frac{1-e^{-2\beta\langle h_i\rangle}}{1+e^{-2\beta\langle h_i\rangle}}=tanh (\beta\langle h_i\rangle)=tanh(\beta\sum_jw_{ij}\langle s_i\rangle)
Фазовые переходы

На простом примере можно убедиться, что свойства сети критическим образом зависят от температуры \beta^1. Действительно, если величины всех синаптических связей положительны и равны между собой: \forall w_{ij}=N^{-1} (такая система эквивалентна ферромагнетику), то все уравнения системы сводятся к одному

\forall \langle s_i\rangle=\langle s\rangle=tanh(\beta\langle s\rangle).

Решение этого уравнения зависит от крутизны наклона функции гиперболического тангенса в начале координат (см. рисунок 11.5). При высокой температуре T>1, \beta<1 уравнение имеет только тривиальное решение s_i=0. Это означает, что состояния всех нейронов беспорядочно флуктуируют, принимая с равной вероятностью значения \pm 1.

Иллюстрация к характеру решений уравнения среднего поля  в приближении высокой и низкой температур

Рис. 11.5. Иллюстрация к характеру решений уравнения среднего поля в приближении высокой и низкой температур

Однако, при снижении температуры ниже точки Кюри T_c=1 в системе происходит фазовый переход, при котором тривиальное решение становится неустойчивым, а у уравнения среднего поля появляется еще два устойчивых нетривиальных решения \pmS_0.

Такое поведение характерно и для общего случая. Мы увидим далее, что в модели Хопфилда свойства ассоциативного запоминания и вызова образов проявляются в некоторой области температуры и дополнительного параметра - степени загрузки памяти. Вне этой области система переходит в неупорядоченное состояние.

Сеть Хопфилда с Хеббовскими связями

Рассмотрим интересующий нас случай сети, в которой связи вычислены по Хеббовскому правилу, исходя из вида запоминаемых векторов. В этом случае уравнения среднего поля принимают вид

\langle s_i\rangle=\\tanh\left(\frac{\beta}{N}\sum_{n,j}\sigma_n^n\sigma_j^n\langle s_j\rangle\right).

Если сеть работает как ассоциативная память, то разумно предположить, что каждому запоминаемому вектору \sigma^k должно соответствовать некоторое решение системы, совпадающего с ним с точностью до постоянного множителя

\langle si\rangle=m\sigma^k.

Подставляя это выражение в уравнения среднего поля и используя предположение, что все векторы памяти не коррелированы и значения их компонент с равной вероятностью принимают значения, получим:

m\sigma^k_i=\\tanh\left[\beta m \sigma_i^k + \beta m N^{-1}\sum_{n\neq k}\sigma_i^n\sum_j \sigma_j^n\sigma_j^k\right]
=tanh\left[\beta m \sigma_i^k+\beta m O\left(\right\sqrt{\frac{P-1}{N}})\right]

В пределе N-> \infty, P\ll N получаем знакомое уравнение для множителя m:

m=tanh(\beta m).

Вновь при высокой температуре (T>1) это уравнение имеет только тривиальное решение и усредненная по времени конфигурация состояний нейронов не имеет ничего общего с запоминаемыми образами. При (T<1) уравнение имеет два решения m=\pm m_0, для которых средняя конфигурация активностей указывает на одно из запоминаемых состояний \sigma^k, или на его "зеркального двойника" - \sigma^k. Из этих состояний однозначно восстанавливаются образы памяти. Однако, если сделать моментальный снимок состояния сети, то в силу флуктуаций она практически никогда не находится ни в одном из состояний памяти, всегда воспроизводя их с некоторой ошибкой. Теоретически было показано, что загрузка памяти, \alpha=P/N, оказывает на поведение системы такое же влияние, как температурный параметр в распределении Ферми. Когда этот параметр мал, каждому из запоминаемых некоррелированных образов соответствует стационарное состояние сети. Однако, при приближении его к критической емкости \alpha\cong 0.138, сеть внезапно теряет все свойства памяти. В плоскости координат (\alpha,T) области памяти и неупорядоченного поведения сети разделены границей, при пересечении которой происходит соответствующий фазовый переход. Более детальный анализ выявляет на фазовой диаграмме следующие 4 области: парамагнитную (P) фазу, в которой любой порядок разрушается высокой температурой; фазу спинового стекла (SG), в которой состояние сети не может эволюционировать к запомненным образам; смешанную (F+SG) - в ней запомненные образы метастабильны; и ферромагнитную (F) - в ней всем запоминаемым образам соответствуют глобальные минимумы энергии.

Упрощенная и детальная диаграммы фазовых состояний сети Хопфилда

Рис. 11.6. Упрощенная и детальная диаграммы фазовых состояний сети Хопфилда

Наличие тепловых флуктуаций снижает вероятность попадания сети в состояние ложных минимумов. Критическая температура, при которых множество таких минимумов становится неустойчивыми, равна T_3\approx 0.46. Таким образом тепловой шум улучшает свойства памяти и наиболее благоприятным температурным интервалом работы сети является T_3<T<T_c.