Московский государственный университет путей сообщения
Опубликован: 10.10.2014 | Доступ: свободный | Студентов: 869 / 193 | Длительность: 22:10:00
Лекция 12:

Муравьиные алгоритмы

< Лекция 11 || Лекция 12: 123456789101112

12.6 Q-муравьиная система

В [10] разработана модификация СМК (в современной классификации – Ant-Q), в которой правило локального изменения концентрации феромона реализовано на основе метода Q-обучения (Q-learning).

Пусть \mu_{ij}(t) обозначает AQ-значение дуги (i,j) в момент t. Тогда правило перехода для этой дуги определяется следующим образом

j=\begin{cases}\arg\max_{u\in N_i^k(t)}\{\mu_{iu}^{\alpha}(t)\eta_{iu}^{\beta}(t)\}},&\mbox{если $r\le r_0$}\\J,&\mbox{если $r>r_0$}\end{cases}. ( 12.25)

Здесь коэффициенты \alpha,\beta определяют важность AQ-величин \eta_{ij} и эвристической информации . AQ-величины отражают предпочтительность перехода (i,j). В уравнении (12.25) j – случайная переменная, значение которой выбирается в соответствии с распределением, которое определяется функцией AQ-величин \mu_{ij} и \eta_{ij}. Предложено три различных правила для выбора значения j:

  1. псевдослучайный выбор, где следующая вершина j случайным образом выбирается из множества N_i^k(t) в соответствии с однородным распределением;
  2. псевдослучайный пропорциональный выбор, где j\in V выбирается в соответствии со следующим распределением

    p_{ij}^k(t)=\begin{cases}\frac{\mu_{ij}^{\alpha}(t)\eta_{ij}^{\beta}(t)}{\sum_{u\in N_j^k}\mu_{ij}^{\alpha}(t)\eta_{ij}^{\beta}(t)},&\mbox{если $j\in N_i^k(t)$}\\0,&\mbox{если $j\notin N_i^k(t)$}\end{cases}. ( 12.26)
  3. случайный пропорциональный выбор соответственно (12.25) с r_0=0.В [10] отмечено, что псевдослучайный пропорциональный выбор лучше показал себя при решении задачи коммивояжера.

    AQ-величины обучаются с использованием следующих правил коррекции:

    \mu_{ij}(t+1)=(1-\rho)\mu_{ij}(t)+\rho\left(\Delta\mu_{ij}(t)+\substack{\gamma\max\{\mu_{iu}(t)\}\\u\in N_j^k(t)}\right), ( 12.27)

    где \rho-коэффициент переоценки (по аналогии с испарением феромона) и \gamma- шаг обучения. Отметим, что при \gamma=0 уравнение (12.27) сводится к уравнению (12.19) . В Ant-Q уравнение (12.27) применяется для каждого муравья после каждого нового выбора j, но с \Delta\mu_{ij}(t)=0. Эффект заключается в том, что AQ-величины, связанные с дугой (i,j), уменьшаются путем умножения на (\rho-1) каждый раз, когда дуга выбирается в потенциальное решение. В тоже время AQ-величина корректируется пропорционально AQ-величине лучшей дуги (i,j).

< Лекция 11 || Лекция 12: 123456789101112