Опубликован: 26.04.2007 | Уровень: специалист | Доступ: платный
Лекция 14:

Многошаговые задачи выбора решений

< Лекция 13 || Лекция 14: 12 || Лекция 15 >

Теперь рассмотрим случай, когда N=2 (именно этому случаю соответствует рис. 2.12), и построим матрицу (см. табл. 2.13), описывающую выигрыши (или математические ожидания выигрышей) стороны P1 в первом из двух периодов.

Таблица 2.13.
Случай N=2 Инспекцию:
Нарушение: Проводить Не проводить
Совершать -1 1
Не совершать 1 v1

Отметим, что отказ сторон от действий в первом периоде переводит игру во второй период, характеризуемый уже рассмотренной матрицей из табл. 2.12. Поскольку, согласно (13.18), цена этой игры меньше, чем 1, то матрица из табл. 2.13 также не содержит седловых значений и ей соответствует цена игры

v_2 = \frac{1 + v_1}{3 - v_1} = \frac{1}{2}, ( 13.19)
совпадающая со значением из (13.19).

Аналогично, для любого значения N>1 выводим, что цена игры, соответствующей выбору действия в первый из N периодов, определяется выражением

v_N = \frac{1 + v_{N-1}}{3 - v_{N-1}}. ( 13.20)
Используя подстановку
w_N = \frac{1}{v_N - 1}, ( 13.21)
выводим равенство
\frac{w_N + 1}{w_N} = \frac{2 w_{N-1} + 1}{2 w_{N-1} - 1},
приводимое к легко разрешимому разностному уравнению
w_N = w_{N-1} - \frac{1}{2} = w_1 - \frac{N-1}{2}. ( 13.22)
Из (13.18) и (13.21) получаем начальное значение w_1 = -1 \frac{1}{2}, которое в сочетании с (13.22) дает решение
w_N = - \frac{N+2}{2}.
Отсюда, учитывая подстановку (13.21), выводим равенство
v_N = \frac{N}{N+2}.

Таким образом, выбору действия в первый из N>1 (остающихся) периодов соответствует игра с матрицей из табл. 2.14. Тогда, согласно (11.7) и (11.8), оптимальные стратегии сторон P1 и P2 в первом из N периодов определяются рулетками вида

x^N = y^N = \left(\frac{1}{N+2}, \frac{N+1}{N+2}\right)\!. ( 13.23)

Таблица 2.14.
Случай N>1 Инспекцию:
Нарушение: Проводить Не проводить
Совершать -1 1
Не совершать 1 \frac{N-1}{N+1}

Следовательно, для любой из двух сторон вероятность выбора действия в первом из N периодов равна 1/(N+2). Если стороны не совершали действий ни в одном из k начальных периодов (k<N), то вероятность совершения действия в (k+1) -м периоде равна

\left(\frac{N+1}{N+2}\right)\left(\frac{N}{N+1}\right)\left(\frac{N-1}{N}\right)
\ldots\left(\frac{N - k+2}{N+3-k}\right)\left(\frac{1}{N - k+2}\right) =
\frac{1}{N+2}.
Т.е. вероятность совершения действия одинакова во всех периодах. Тогда определяемая оптимальными рулетками (13.23) вероятность p0(N) того, что действие (т.е. нарушение или инспекция) вообще не будет совершено за N периодов, есть величина
p_0(N) = \frac{2}{N+2}.
При этом p_0(1) = \frac{2}{3} и p_0(N) \to 0 при N \to \infty.

Таким образом, обе схемы, использованные для анализа рассмотренного примера при N=2 (многошаговая схема и схема, основанная на предварительном построении нормальной модели), приводят к одним и тем же значениям вероятностей выбора действий и отказа от действий. Нетрудно заметить, что возможность успешного применения многошаговой схемы при произвольных значениях N>1 связана с тем, что дерево игры оказалось существенно не полным. В каждом его четном ярусе содержится ровно два узла, а в каждом нечетном - ровно один узел и три вершины (кроме первого яруса). Т.е. возможность построения рекуррентных отношений, связывающих ожидаемые выигрыши сторон на последовательных стадиях процесса принятия решений, определяется спецификой рассмотренного примера.

Замечание 2.7 (о стратегиях поведения. Рассмотренная схема последовательного выбора решений использует на каждом ходе некоторую рулетку, определенную не на множестве всех чистых стратегий (число которых может быть велико), а на множестве вариантов, имеющихся у этой стороны на конкретном ходе (число которых обычно не велико). Чтобы отличать рассмотренные комплекты рулеток от введенных ранее смешанных стратегий, их обычно называют стратегиями поведения. Таким образом, стратегия поведения конкретной стороны сопоставляет каждому информационному множеству этой стороны вероятностное распределение, заданное на наборе альтернатив, которые имеются в этом множестве.

< Лекция 13 || Лекция 14: 12 || Лекция 15 >
Михаил Агапитов
Михаил Агапитов
ВКР
Подобед Александр
Подобед Александр
Как оплатить обучение?
Гаральд Егоркин
Гаральд Егоркин
Россия
Михаил Алексеев
Михаил Алексеев
Россия, Уфа, УГАТУ, 2002