Муравьиные алгоритмы
12.6 Q-муравьиная система
В [10] разработана модификация СМК (в современной классификации – Ant-Q), в которой правило локального изменения концентрации феромона реализовано на основе метода Q-обучения (Q-learning).
Пусть обозначает AQ-значение дуги в момент . Тогда правило перехода для этой дуги определяется следующим образом
( 12.25) |
Здесь коэффициенты определяют важность AQ-величин и эвристической информации . AQ-величины отражают предпочтительность перехода . В уравнении (12.25) – случайная переменная, значение которой выбирается в соответствии с распределением, которое определяется функцией AQ-величин и . Предложено три различных правила для выбора значения :
- псевдослучайный выбор, где следующая вершина случайным образом выбирается из множества в соответствии с однородным распределением;
-
псевдослучайный пропорциональный выбор, где выбирается в соответствии со следующим распределением
( 12.26) -
случайный пропорциональный выбор соответственно (12.25) с .В [10] отмечено, что псевдослучайный пропорциональный выбор лучше показал себя при решении задачи коммивояжера.
AQ-величины обучаются с использованием следующих правил коррекции:
( 12.27) где -коэффициент переоценки (по аналогии с испарением феромона) и - шаг обучения. Отметим, что при уравнение (12.27) сводится к уравнению (12.19) . В Ant-Q уравнение (12.27) применяется для каждого муравья после каждого нового выбора , но с . Эффект заключается в том, что AQ-величины, связанные с дугой , уменьшаются путем умножения на каждый раз, когда дуга выбирается в потенциальное решение. В тоже время AQ-величина корректируется пропорционально AQ-величине лучшей дуги .