Опубликован: 16.11.2010 | Уровень: специалист | Доступ: свободно
Лекция 5:

Планирование экспериментов

< Лекция 4 || Лекция 5: 12345 || Лекция 6 >

4.7. Точность и количество реализаций модели при определении вероятностей исходов

Мы рассматриваем случай, когда в качестве показателя эффективности выступает вероятность свершения (или не свершения) какого-либо события, например, поражения цели, выхода из строя техники, завершения комплекса работ в заданное время и др.

В качестве оценки вероятности P события \overline{a} выступает частота его свершения:

\overline{P}=\cfrac{m}{N}

где N - число реализаций модели;

m - число свершений данного события.

Использование частоты \overline{P} в качестве оценки искомой вероятности P основано на теореме Я. Бернулли, которую в данном случае можно в формализованном виде записать так:

\lim\limits_{N\to \infty}{\cfrac{m}{N}}=P

Точность и достоверность этой оценки связаны уже с известным определением достоверности:

P(|\overline{P}-P|<\varepsilon)=\alpha

Задача сводится к нахождению такого количества реализаций N, чтобы оценка \overline{P} отличалась от искомого значения P менее, чем на \varepsilon с заданной достоверностью. Здесь, как и ранее, \varepsilon - абсолютное значение, характеризующее точность оценки.

Для нахождения функциональной связи между точностью, достоверностью и числом реализаций модели введем переменную x_{i} - результат исхода i -й реализации модели:

x_i=\left \{
\begin{array}{ll}
1,& \text{ событие свершилось, вероятность } P,\\
0,& \text{ событие не свершилось, вероятность } 1-P.
\end{array}

Тогда частота свершения события (оценка искомой вероятности) будет определяться следующим выражением:

\overline{P}=\cfrac{\sum\limits_{i=1}^{N}{x_i}}{N}

Величина {\sum\limits_{i=1}^{N}{x_i}} - случайная и дискретная. Она при таком задании x_{i} имеет биномиальное распределение (распределение Бернулли) с характеристиками:

  • матожидание M\left [\sum\limits_{i=1}^{N}{x_i}\right ]=NP
  • дисперсия D\left [\sum\limits_{i=1}^{N}{x_i}\right ]=NP(1-P)

Из этого следует:

M[\overline{P}]=M\left [\frac{\sum\limits_{i=1}^{N}{x_i}}{N}\right ]=\cfrac{1}{N}NP=P,\\
D[\overline{P}]=D\left [\frac{\sum\limits_{i=1}^{N}{x_i}}{N}\right ]=\cfrac{1}{N^2}NP(1-P)=
\cfrac{P(1-P)}{N},\\
\sigma_{\overline{P}}=\sqrt{D[\overline{P}]}=\cfrac{P(1-P)}{N}

В теории вероятностей есть теорема Лапласа (частный случай центральной предельной теоремы), сущность которой состоит в том, что при больших значениях числа реализаций N биномиальное распределение достаточно хорошо согласуется с нормальным распределением.

Следовательно, можно записать:

P(|\overline{P}-P|< t_{\alpha}\sigma_{\overline{P}})=2\Phi(t_{\alpha}),\\
P\left (|\overline{P}-P|< t_{\alpha}\sqrt{\cfrac{P(1-P)}{N}}\right)=2\Phi(t_{\alpha}).

Следуя рассуждениям, приведенным ранее, получим искомые формулы:

\varepsilon=t_{\alpha}\sqrt{\cfrac{P(1-P)}{N}},\,\,
N=t_{\alpha}^2{\cfrac{P(1-P)}{\varepsilon^2}}.

Как и ранее, t_{\alpha } - аргумент функции Лапласа, t_{\alpha}=\Phi^{-1}\left ( \cfrac{\alpha}{2}\right )

Если априорные сведения хотя бы о порядке искомой вероятности P неизвестны, то использование значения абсолютной ошибки \varepsilon может не иметь смысла. Например, может быть так, что исследователь задал значение абсолютной ошибки \varepsilon=1, а искомое значение вероятности оказалось P = 0.01. Очевидно, явное несоответствие. Поэтому целесообразно оперировать относительной погрешностью: d=\cfrac{\varepsilon}{p}

В этом случае формулы (4.5) принимают вид:

d=t_{\alpha}\sqrt{\cfrac{1-P}{PN}},\,\,
N= t_{\alpha}^2\cfrac{1-P}{Pd^2}

Из формул (4.6) следует, что при определении оценок малых вероятностей с приемлемо высокой точностью необходимо выполнить очень большое число реализаций модели. При отсутствии высокопроизводительного компьютера применение статистического моделирования становится проблематичным.

Пример 4.6. Вероятность P = 0,1.

Определить число реализаций модели и затраты машинного времени для оценки данной вероятности с относительной точностью d =1% и достоверностью \alpha = 0.9. На выполнение одной реализации модели требуется 5 сек.

Решение

Из табл. 4.3 находим t_{\alpha } = 1.65 . Относительная точность d=0,01.

N= t_{\alpha}^2\cfrac{1-P}{Pd^2}=  1.65^2\cfrac{1-0.1}{0.1\cdot 0.01^2}=2.7252\cfrac{0.9}{0.1\cdot 0.01^2}=\cfrac{2.45}{10^{-5}}=245000

Если на выполнение одной реализации требуется 5 сек, то затраты машинного времени составят \cfrac{245000\cdot 5}{3600}\approx 340 часов

В формулах (4.5) и (4.6) для вычисления N или \varepsilon(d) присутствует та же неопределенность, которую мы обсуждали ранее: вычисления требуют знания вероятности P, а она до эксперимента неизвестна. Эта неопределенность снимается так.

Выполняется предварительно N^* прогонов модели. Обычно N^*= 1000. По данным этих прогонов вычисляют ориентировочное значение оценки вероятности \overline{P}^* , которую и подставляют в формулу вместо вероятности P.

Если окажется N > N^* , моделирование следует продолжить до выполнения N реализаций.

Если окажется N \le N^*, то моделирование заканчивается. При этом если N <N, то следует определить действительную точность \varepsilon или d для N = 1000 реализаций. Очевидно, в этом случае достигнутая точность будет выше заданной (ошибка меньше заданной)

Но более удобно рассчитывать число реализаций на так называемый наихудший случай.

Вернемся к формуле (4.5)

N= t_{\alpha}^2\cfrac{P(1-P)}{\varepsilon^2}

Анализ формулы показывает, что число реализаций модели в зависимости от вероятности P изменяется от 0 (при P = 0 ) до 0 (при P = 1 ), проходя через максимум. Максимальное значение N принимает при P = 0.5:

\cfrac{\particial{N}}{\particial{P}}=
\cfrac{t_{\alpha}^2}{\varepsilon^{2}}(1-2P)=0, \,\,.1-2P=0,\,\, P=0.5

То есть наибольшее число реализаций модели будет тогда, когда искомая вероятность равна 0.5.

В этом случае число реализаций определяется так:

N_m= t_{\alpha}^2\cfrac{P(1-P)}{\varepsilon^2}=
t_{\alpha}^2\cfrac{0.5(1-0.5)}{\varepsilon^2} = \cfrac{t_{\alpha}^2}{4\varepsilon^2}

Если в результате моделирования окажется, что искомая вероятность значительно отличается от 0,5 (в любую сторону), то точность моделирования будет выше заданной (ошибка \varepsilon меньше). Для определения этой точности следует воспользоваться уже известной формулой (4.5), но при N =N_{m}:

\varepsilon=t_{\alpha}\sqrt{\cfrac{P(1-P)}{N_m}}

Пример 4.7. Сервер обрабатывает запросы, поступающие с автоматизированных рабочих мест (АРМ) с интервалами, распределенными по экспоненциальному закону со средним значением T_{1} = 2мин. Вычислительная сложность запросов распределена по нормальному закону с математическим ожиданием S_{1} = 6\cdot 10^{7} оп и среднеквадратическим отклонением S_{2} = 2\cdot 10^{5} оп. Производительность сервера по обработке запросов Q = 5\cdot 10^{5} оп/c.

Построить алгоритм имитационной модели с целью определения вероятности обработки запросов за время T =1час. Исследовать зависимость вероятности обработки запросов от интервалов их поступления, вычислительной сложности и производительности сервера.

Решение

Для построения алгоритма имитационной модели введем следующие идентификаторы:

t1 - текущее время поступления запроса;

t2 - интервал поступления запросов;

t3 - текущее время окончания обработки запроса;

t4 - время обработки запроса;

k - счетчик количества прогонов модели (реализаций);

P - вероятность обработки запросов;

M - счетчик количества обработанных запросов;

N - заданное количество прогонов модели (реализаций);

R - количество запросов за N прогонов модели;

T - время моделирования.

Алгоритм модели приведен на рис. 4.2.

Алгоритм модели обработки запросов сервером

увеличить изображение
Рис. 4.2. Алгоритм модели обработки запросов сервером

Выберем интервалы варьирования уровней факторов.

T_{1} =120 \pm 60 c - средний интервал поступления запросов.

Для изменения математического ожидания и среднеквадрати-ческого отклонения целесообразно ввести коэффициент, принимающий два значения, например, h_{1} = 0.5 и h_{2} =1.5 . Тогда S_1 = 2\cdot 10^7 \pm 3\cdot 10^7 оп, S_2 = 2\cdot 10^5 \pm 1\cdot 10^5 оп, Q = 5\cdot 10^5 \pm 2\cdot 10^5 оп/с - производительность сервера.

В соответствии с интервалами варьирования представим уровни факторов таблицей (табл. 4.5). В табл. 4.5 индексы н и в - нижний и верхний уровни факторов соответственно.

Таблица 4.5. Уровни факторов
T_1 S_1/S_2 Q
T_{1Н} T_{1В} (S_1/S_2)_Н (S_1/S_2)_В Q_Н Q_В
60 180 3\cdot 10^7 /1\cdot 10^5 9\cdot 10^7 /3\cdot 10^5 3\cdot 10^5 7 \cdot 10^5
-1 +1 -1 +1 -1 +1

Составим план факторного эксперимента:

Таблица 4.6. План полного факторного эксперимента
T_{1} S_{1} /S_{2} Q Y
N_{0} =1000 N_{0} =9600
1 2 3 4 5 6
1 -1 -1 -1 0.375 0.375
2 -1 -1 +1 0.584 0.583
3 -1 +1 -1 0.166 0.167
4 -1 +1 +1 0.32 0.319
5 +1 -1 -1 0.64 0.642
6 +1 -1 +1 0.809 0.808
7 +1 +1 -1 0.376 0.375

Проведем эксперимент. Выполним первое наблюдение при N_{0} =1000 прогонов модели. Получим вероятность обработки запросов P_{0} =0,375. Занесем ее в табл. 4.5 (строка 1, столбец 5) Зададимся точностью \varepsilon = 0,01 и доверительной вероятностью \alpha  = 0,95. По таблице значений функции Лапласа найдем ее аргумент t_{\alpha } = 1,96 (см. табл. 4.3).

Рассчитаем требуемое количество прогонов модели при \varepsilon = 0,01 и \alpha  = 0,95 :

N= t_{\alpha}^2\cfrac{P(1-P)}{\varepsilon^2}=
1.96^2\cfrac{0.375(1-0.375)}{0.01^2}=
3.8416\cdot\cfrac{0.375\cdot 0.625}{0.01^2}= 9003

При расчете числа прогонов для "худшего случая" (а такой вариант возможен, так как в табл. 4.6 мы видим, что есть P_{0} \approx 0.5 ) получим:

N=1.96^2\cfrac{0.5\cdot 0.5)}{0.01^2}=
3.8416\cdot\cfrac{0.25}{0.01^2}= 9604
< Лекция 4 || Лекция 5: 12345 || Лекция 6 >
Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?

 

Александр Колунин
Александр Колунин
Россия, Большое Сорокино, МОУ СОШ №1, 2008
Лоя Фотт
Лоя Фотт
Россия, г. Юрга