НОУ ИНТУИТ | Интеллектуальные робототехнические системы. Лекция 3: Методы поиска решений

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Московский государственный технологический университет «Станкин»

Опубликован: 18.05.2005 | Доступ: свободный | Студентов: 5083 / 1012 | Оценка: 3.93 / 3.84 | Длительность: 11:45:00

ISBN: 978-5-9556-0024-6

Тема: Искусственный интеллект и робототехника

Специальности: Программист

|

Вам нравится? Нравится 48 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Алгоритм минимакса

В 1945 году Оскар Моргенштерн и Джон фон Нейман предложили метод минимакса, нашедший широкое применение в теории игр. Предположим, что противник использует оценочную функцию (ОФ), совпадающую с нашей ОФ. Выбор хода с нашей стороны определяется максимальным значением ОФ для текущей позиции. Противник стремится сделать ход, который минимизирует ОФ. Поэтому этот метод и получил название минимакса. На рис. 3.5 приведен пример анализа дерева ходов с помощью метода минимакса (выбранный путь решения отмечен жирной линией).

Рис. 3.5. Дерево ходов

Развивая метод минимакса, назначим вероятности для выполняемых действий в задаче о миссионерах и людоедах:

P([2 : 0]R) = 0; 8; P([1 : 1]R) = 0; 5;
P([0 : 2]R) = 0; 9;
P([1 : 0]R) = 0; 3; P([0 : 1]R) = 0; 3:

Интуитивно понятно, что посылать одного людоеда или одного миссионера менее эффективно, чем двух человек, особенно на начальных этапах. На каждом уровне мы будем выбирать состояние по критерию P_i. Даже такой простой подход позволит нам избежать части тупиковых состояний в процессе поиска и сократить время по сравнению с полным перебором. Кстати, этот подход достаточно распространен в экспертных продукционных системах.

Альфа-бета-процедура

Теоретически, это эквивалентная минимаксу процедура, с помощью которой всегда получается такой же результат, но заметно быстрее, так как целые части дерева исключаются без проведения анализа. В основе этой процедуры лежит идея Дж. Маккарти об использовании двух переменных, обозначенных $\alpha$ и $\beta$ (1961 год).

Основная идея метода состоит в сравнении наилучших оценок, полученных для полностью изученных ветвей, с наилучшими предполагаемыми оценками для оставшихся. Можно показать, что при определенных условиях некоторые вычисления являются лишними. Рассмотрим идею отсечения на примере рис. 3.6. Предположим, позиция А полностью проанализирована и найдено значение ее оценки $\alpha.$ Допустим, что один ход из позиции Y приводит к позиции Z, оценка которой по методу минимакса равна z. Предположим, что $z \le \alpha$ . После анализа узла Z, когда справедливо соотношение $y \le z \le \alpha \le s$ , ветви дерева, выходящие из узла Y, могут быть отброшены (альфа-отсечение).

Рис. 3.6. - отсечение

Если мы захотим опуститься до узла Z, лежащего на уровне произвольной глубины, принадлежащей той же стороне, что и уровень S, то необходимо учитывать минимальное значение оценки $\beta,$ получаемой на ходах противника.

Отсечение типа $\beta$ можно выполнить всякий раз, когда оценка позиции, возникающая после хода противника, превышает значение $\beta.$ Алгоритм поиска строится так, что оценки своих ходов и ходов противника сравниваются при анализе дерева с величинами $\alpha$ и $\beta$ соответственно. В начале вычислений этим величинам присваиваются значения $+\infty$ и $-\infty$ , а затем, по мере продвижения к корню дерева, находится оценка начальной позиции и наилучший ход для одного из противников.

Правила вычисления $\alpha$ и $\beta$ в процессе поиска рекомендуются следующие:

у MAX вершины значение $\alpha$ равно наибольшему в данный момент значению среди окончательных возвращенных значений для ее дочерних вершин;
у MIN вершины значение $\beta$ равно наименьшему в данный момент значению среди окончательных возвращенных значений для ее дочерних вершин.

Правила прекращения поиска:

можно не проводить поиска на поддереве, растущем из всякой MIN вершины, у которой значение $\beta$ не превышает значения $\alpha$ всех ее родительских MAX вершин;
можно не проводить поиска на поддереве, растущем из всякой MAX вершины, у которой значение $\alpha$ не меньше значения $\beta$ всех ее родительских MIN вершин.

На рис. 3.7 показаны $\alpha -\beta$ отсечения для конкретного примера. Таким образом, $\alpha -\beta$ -алгоритм дает тот же результат, что и метод минимакса, но выполняется быстрее.

Рис. 3.7. a-b отсечение для конкретного примера

Использование алгоритмов эвристического поиска для поиска на графе И, ИЛИ выигрышной стратегии в более сложных задачах и играх (шашки, шахматы) не реален. По некоторым оценкам игровое дерево игры в шашки содержит 10⁴⁰ вершин, в шахматах 10¹²⁰ вершин. Если при игре в шашки для одной вершины требуется 1/3 наносекунды, то всего игрового времени потребуется 10²¹ веков. В таких случаях вводятся искусственные условия остановки, основанные на таких факторах, как наибольшая допустимая глубина вершин в дереве поиска или ограничения на время и объем памяти.

Многие из рассмотренных выше идей были использованы А. Ньюэллом, Дж. Шоу и Г. Саймоном в их программе GPS. Процесс работы GPS в общем воспроизводит методы решения задач, применяемые человеком: выдвигаются подцели, приближающие к решению; применяется эвристический метод (один, другой и т. д.), пока не будет получено решение. Попытки прекращаются, если получить решение не удается.

Программа STRIPS (STanford Research Institut Problem Solver) вырабатывает соответствующий порядок действий робота в зависимости от поставленной цели. Программа способна обучаться на опыте решения предыдущих задач. Большая часть игровых программ также обучается в процессе работы. Например, знаменитая шашечная программа Самюэля, выигравшая в 1974 году у чемпиона мира, "заучивала наизусть" выигранные партии и обобщала их для извлечения пользы из прошлого опыта. Программа HACHER Зуссмана, управляющая поведением робота, обучалась также и на ошибках.

Дальше >>

Авторизоваться

Интеллектуальные робототехнические системы

Методы поиска решений

Алгоритм минимакса

Альфа-бета-процедура

Вопросы и ответы