НОУ ИНТУИТ | Компьютерное моделирование. Лекция 5: Планирование экспериментов

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 16.11.2010 | Доступ: свободный | Студентов: 5204 / 2886 | Оценка: 4.43 / 4.14 | Длительность: 27:21:00

Темы: Программирование, Алгоритмы и дискретные структуры

Специальности: Программист, Системный архитектор

|

Вам нравится? Нравится 50 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

4.7. Точность и количество реализаций модели при определении вероятностей исходов

Мы рассматриваем случай, когда в качестве показателя эффективности выступает вероятность свершения (или не свершения) какого-либо события, например, поражения цели, выхода из строя техники, завершения комплекса работ в заданное время и др.

В качестве оценки вероятности события $\overline{a}$ выступает частота его свершения:

$\overline{P}=\cfrac{m}{N}$

где - число реализаций модели;

- число свершений данного события.

Использование частоты $\overline{P}$ в качестве оценки искомой вероятности основано на теореме Я. Бернулли, которую в данном случае можно в формализованном виде записать так:

$\lim\limits_{N\to \infty}{\cfrac{m}{N}}=P$

Точность и достоверность этой оценки связаны уже с известным определением достоверности:

$P(|\overline{P}-P|<\varepsilon)=\alpha$

Задача сводится к нахождению такого количества реализаций чтобы оценка $\overline{P}$ отличалась от искомого значения менее, чем на $\varepsilon$ с заданной достоверностью. Здесь, как и ранее, $\varepsilon$ - абсолютное значение, характеризующее точность оценки.

Для нахождения функциональной связи между точностью, достоверностью и числом реализаций модели введем переменную $x_{i}$ - результат исхода -й реализации модели:

$x_i=\left \{ \begin{array}{ll} 1,& \text{ событие свершилось, вероятность } P,\\ 0,& \text{ событие не свершилось, вероятность } 1-P. \end{array}$

Тогда частота свершения события (оценка искомой вероятности) будет определяться следующим выражением:

$\overline{P}=\cfrac{\sum\limits_{i=1}^{N}{x_i}}{N}$

Величина ${\sum\limits_{i=1}^{N}{x_i}}$ - случайная и дискретная. Она при таком задании $x_{i}$ имеет биномиальное распределение (распределение Бернулли) с характеристиками:

матожидание $M\left [\sum\limits_{i=1}^{N}{x_i}\right ]=NP$
дисперсия $D\left [\sum\limits_{i=1}^{N}{x_i}\right ]=NP(1-P)$

Из этого следует:

$M[\overline{P}]=M\left [\frac{\sum\limits_{i=1}^{N}{x_i}}{N}\right ]=\cfrac{1}{N}NP=P,\\ D[\overline{P}]=D\left [\frac{\sum\limits_{i=1}^{N}{x_i}}{N}\right ]=\cfrac{1}{N^2}NP(1-P)= \cfrac{P(1-P)}{N},\\ \sigma_{\overline{P}}=\sqrt{D[\overline{P}]}=\cfrac{P(1-P)}{N}$

В теории вероятностей есть теорема Лапласа (частный случай центральной предельной теоремы), сущность которой состоит в том, что при больших значениях числа реализаций биномиальное распределение достаточно хорошо согласуется с нормальным распределением.

Следовательно, можно записать:

$P(|\overline{P}-P|< t_{\alpha}\sigma_{\overline{P}})=2\Phi(t_{\alpha}),\\ P\left (|\overline{P}-P|< t_{\alpha}\sqrt{\cfrac{P(1-P)}{N}}\right)=2\Phi(t_{\alpha}).$

Следуя рассуждениям, приведенным ранее, получим искомые формулы:

$\varepsilon=t_{\alpha}\sqrt{\cfrac{P(1-P)}{N}},\,\, N=t_{\alpha}^2{\cfrac{P(1-P)}{\varepsilon^2}}.$

Как и ранее, $t_{\alpha }$ - аргумент функции Лапласа, $t_{\alpha}=\Phi^{-1}\left ( \cfrac{\alpha}{2}\right )$

Если априорные сведения хотя бы о порядке искомой вероятности неизвестны, то использование значения абсолютной ошибки $\varepsilon$ может не иметь смысла. Например, может быть так, что исследователь задал значение абсолютной ошибки $\varepsilon=1$ , а искомое значение вероятности оказалось P = 0.01 . Очевидно, явное несоответствие. Поэтому целесообразно оперировать относительной погрешностью: $d=\cfrac{\varepsilon}{p}$

В этом случае формулы (4.5) принимают вид:

$d=t_{\alpha}\sqrt{\cfrac{1-P}{PN}},\,\, N= t_{\alpha}^2\cfrac{1-P}{Pd^2}$

Из формул (4.6) следует, что при определении оценок малых вероятностей с приемлемо высокой точностью необходимо выполнить очень большое число реализаций модели. При отсутствии высокопроизводительного компьютера применение статистического моделирования становится проблематичным.

Пример 4.6. Вероятность P = 0,1.

Определить число реализаций модели и затраты машинного времени для оценки данной вероятности с относительной точностью d =1% и достоверностью $\alpha = 0.9.$ На выполнение одной реализации модели требуется 5 сек.

Решение

Из табл. 4.3 находим $t_{\alpha } = 1.65$ . Относительная точность d=0,01 .

$N= t_{\alpha}^2\cfrac{1-P}{Pd^2}= 1.65^2\cfrac{1-0.1}{0.1\cdot 0.01^2}=2.7252\cfrac{0.9}{0.1\cdot 0.01^2}=\cfrac{2.45}{10^{-5}}=245000$

Если на выполнение одной реализации требуется 5 сек, то затраты машинного времени составят $\cfrac{245000\cdot 5}{3600}\approx 340 часов$

В формулах (4.5) и (4.6) для вычисления или $\varepsilon(d)$ присутствует та же неопределенность, которую мы обсуждали ранее: вычисления требуют знания вероятности , а она до эксперимента неизвестна. Эта неопределенность снимается так.

Выполняется предварительно N^* прогонов модели. Обычно N^*= 1000. По данным этих прогонов вычисляют ориентировочное значение оценки вероятности $\overline{P}^*$ , которую и подставляют в формулу вместо вероятности .

Если окажется N > N^* , моделирование следует продолжить до выполнения реализаций.

Если окажется $N \le N^*,$ то моделирование заканчивается. При этом если N <N, то следует определить действительную точность $\varepsilon$ или для N = 1000 реализаций. Очевидно, в этом случае достигнутая точность будет выше заданной (ошибка меньше заданной)

Но более удобно рассчитывать число реализаций на так называемый наихудший случай.

Вернемся к формуле (4.5)

$N= t_{\alpha}^2\cfrac{P(1-P)}{\varepsilon^2}$

Анализ формулы показывает, что число реализаций модели в зависимости от вероятности изменяется от (при P = 0 ) до (при P = 1 ), проходя через максимум. Максимальное значение принимает при P = 0.5 :

$\cfrac{\particial{N}}{\particial{P}}= \cfrac{t_{\alpha}^2}{\varepsilon^{2}}(1-2P)=0, \,\,.1-2P=0,\,\, P=0.5$

То есть наибольшее число реализаций модели будет тогда, когда искомая вероятность равна 0.5 .

В этом случае число реализаций определяется так:

$N_m= t_{\alpha}^2\cfrac{P(1-P)}{\varepsilon^2}= t_{\alpha}^2\cfrac{0.5(1-0.5)}{\varepsilon^2} = \cfrac{t_{\alpha}^2}{4\varepsilon^2}$

Если в результате моделирования окажется, что искомая вероятность значительно отличается от 0,5 (в любую сторону), то точность моделирования будет выше заданной (ошибка $\varepsilon$ меньше). Для определения этой точности следует воспользоваться уже известной формулой (4.5), но при $N =N_{m}:$

$\varepsilon=t_{\alpha}\sqrt{\cfrac{P(1-P)}{N_m}}$

Пример 4.7. Сервер обрабатывает запросы, поступающие с автоматизированных рабочих мест (АРМ) с интервалами, распределенными по экспоненциальному закону со средним значением $T_{1} = 2мин.$ Вычислительная сложность запросов распределена по нормальному закону с математическим ожиданием $S_{1} = 6\cdot 10^{7} оп$ и среднеквадратическим отклонением $S_{2} = 2\cdot 10^{5} оп.$ Производительность сервера по обработке запросов $Q = 5\cdot 10^{5} оп/c.$

Построить алгоритм имитационной модели с целью определения вероятности обработки запросов за время T =1час. Исследовать зависимость вероятности обработки запросов от интервалов их поступления, вычислительной сложности и производительности сервера.

Решение

Для построения алгоритма имитационной модели введем следующие идентификаторы:

- текущее время поступления запроса;

- интервал поступления запросов;

- текущее время окончания обработки запроса;

- время обработки запроса;

- счетчик количества прогонов модели (реализаций);

- вероятность обработки запросов;

- счетчик количества обработанных запросов;

- заданное количество прогонов модели (реализаций);

- количество запросов за прогонов модели;

- время моделирования.

Алгоритм модели приведен на рис. 4.2.

увеличить изображение
Рис. 4.2. Алгоритм модели обработки запросов сервером

Выберем интервалы варьирования уровней факторов.

$T_{1} =120 \pm 60 c$ - средний интервал поступления запросов.

Для изменения математического ожидания и среднеквадрати-ческого отклонения целесообразно ввести коэффициент, принимающий два значения, например, $h_{1} = 0.5$ и $h_{2} =1.5$ . Тогда $S_1 = 2\cdot 10^7 \pm 3\cdot 10^7 оп$ , $S_2 = 2\cdot 10^5 \pm 1\cdot 10^5 оп$ , $Q = 5\cdot 10^5 \pm 2\cdot 10^5 оп/с$ - производительность сервера.

В соответствии с интервалами варьирования представим уровни факторов таблицей (табл. 4.5). В табл. 4.5 индексы н и в - нижний и верхний уровни факторов соответственно.

Таблица 4.5. Уровни факторов

$T_{1Н}$	$T_{1В}$
		$3\cdot 10^7 /1\cdot 10^5$	$9\cdot 10^7 /3\cdot 10^5$	$3\cdot 10^5$	$7 \cdot 10^5$
-1	+1	-1	+1	-1	+1

Составим план факторного эксперимента:

Таблица 4.6. План полного факторного эксперимента
№	$T_{1}$	$S_{1} /S_{2}$
№	$T_{1}$	$S_{1} /S_{2}$		$N_{0} =1000$	$N_{0} =9600$
1	2	3	4	5	6
1	-1	-1	-1	0.375	0.375
2	-1	-1	+1	0.584	0.583
3	-1	+1	-1	0.166	0.167
4	-1	+1	+1	0.32	0.319
5	+1	-1	-1	0.64	0.642
6	+1	-1	+1	0.809	0.808
7	+1	+1	-1	0.376	0.375

Проведем эксперимент. Выполним первое наблюдение при $N_{0} =1000$ прогонов модели. Получим вероятность обработки запросов $P_{0} =0,375$ . Занесем ее в табл. 4.5 (строка 1, столбец 5) Зададимся точностью $\varepsilon = 0,01$ и доверительной вероятностью $\alpha = 0,95$ . По таблице значений функции Лапласа найдем ее аргумент $t_{\alpha } = 1,96$ (см. табл. 4.3).

Рассчитаем требуемое количество прогонов модели при $\varepsilon = 0,01$ и $\alpha = 0,95$ :

$N= t_{\alpha}^2\cfrac{P(1-P)}{\varepsilon^2}= 1.96^2\cfrac{0.375(1-0.375)}{0.01^2}= 3.8416\cdot\cfrac{0.375\cdot 0.625}{0.01^2}= 9003$

При расчете числа прогонов для "худшего случая" (а такой вариант возможен, так как в табл. 4.6 мы видим, что есть $P_{0} \approx 0.5$ ) получим:

$N=1.96^2\cfrac{0.5\cdot 0.5)}{0.01^2}= 3.8416\cdot\cfrac{0.25}{0.01^2}= 9604$

Дальше >>

Авторизоваться

Компьютерное моделирование

Планирование экспериментов

4.7. Точность и количество реализаций модели при определении вероятностей исходов

Вопросы и ответы