Здравствуйте! 4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1. Сегодня вижу, что я вне курса! Почему так произошло? |
Основы вероятностно-статистических методов описания неопределенностей
Введем понятие семейства нормальных распределений. По определению нормальным распределением называется распределение случайной величины , для которой распределение приведенной случайной величины есть . Как следует из общих свойств масштабно-сдвиговых семейств распределений (см. выше), нормальное распределение – это распределение случайной величины
где – случайная величина с распределением , причем . Нормальное распределение с параметрами и обычно обозначается (иногда используется обозначение ).
Как следует из (8), плотность вероятности нормального распределения есть
Нормальные распределения образуют масштабно-сдвиговое семейство. При этом параметром масштаба является , а параметром сдвига .
Для центральных моментов третьего и четвертого порядка нормального распределения справедливы равенства
Эти равенства лежат в основе классических методов проверки того, что результаты наблюдений подчиняются нормальному распределению. В настоящее время нормальность обычно рекомендуется проверять по критерию Шапиро – Уилка. Проблема проверки нормальности обсуждается ниже.
Если случайные величины и имеют функции распределения и соответственно, то имеет распределение . Следовательно, если случайные величины независимы и имеют одно и тоже распределение , то их среднее арифметическое
имеет распределение .. Эти свойства нормального распределения постоянно используются в различных вероятностно-статистических методах принятия решений, в частности, при статистическом регулировании технологических процессов и в статистическом приемочном контроле по количественному признаку.
С помощью нормального распределения определяются три распределения, которые в настоящее время часто используются при статистической обработке данных.
Распределение (хи – квадрат) – распределение случайной величины
где случайные величины независимы и имеют одно и тоже распределение . При этом число слагаемых, т.е. , называется "числом степеней свободы" распределения хи-квадрат.
Распределение Стьюдента – это распределение случайной величины
где случайные величины и независимы, имеет распределение стандартное нормальное распределение , а – распределение хи-квадрат с степенями свободы. При этом n называется "числом степеней свободы" распределения Стьюдента. Это распределение было введено в 1908 г. английским статистиком В. Госсетом, работавшем на фабрике, выпускающей пиво. Вероятностно-статистические методы использовались для принятия экономических и технических решений на этой фабрике, поэтому ее руководство запрещало В. Госсету публиковать научные статьи под своим именем. Таким способом охранялась коммерческая тайна, "ноу-хау" в виде вероятностно-статистических методов, разработанных В. Госсетом. Однако он имел возможность публиковаться под псевдонимом "Стьюдент". История Госсета – Стьюдента показывает, что еще сто лет назад менеджерам Великобритании была очевидна большая экономическая эффективность вероятностно-статистических методов принятия решений.Распределение Фишера – это распределение случайной величины
где случайные величины и независимы и имеют распределения хи-квадрат с числом степеней свободы и соответственно. При этом пара – пара "чисел степеней свободы" распределения Фишера, а именно: – число степеней свободы числителя, а – число степеней свободы знаменателя. Распределение случайной величины названо в честь великого английского статистика Р.Фишера (1890–1962), активно использовавшего его в своих работах.Выражения для функций распределения хи-квадрат, Стьюдента и Фишера, их плотностей и характеристик, а также таблицы можно найти в специальной литературе (см., например, [ [ 2.1 ] ]).
Как уже отмечалось, нормальные распределения в настоящее время часто используют в вероятностных моделях в различных прикладных областях. В чем причина такой широкой распространенности этого двухпараметрического семейства распределений? Она проясняется следующей теоремой.
Центральная предельная теорема (для разнораспределенных слагаемых). Пусть . – независимые случайные величины с математическими ожиданиями . и дисперсиями . соответственно. Пусть
Тогда при справедливости некоторых условий, обеспечивающих малость вклада любого из слагаемых в ,
для любого .Условия, о которых идет речь, не будем здесь формулировать. Их можно найти в специальной литературе (см., например, [ [ 2.3 ] ]). "Выяснение условий, при которых действует ЦПТ, составляет заслугу выдающихся русских ученых А.А. Маркова (1857–1922) и, в особенности, А.М.Ляпунова (1857–1918)" [ [ 2.20 ] , с. 197].
Центральная предельная теорема показывает, что в случае, когда результат измерения (наблюдения) складывается под действием многих причин, причем каждая из них вносит лишь малый вклад, а совокупный итог определяется аддитивно, т.е. путем сложения, то распределение результата измерения (наблюдения) близко к нормальному.
Иногда считают, что для нормальности распределения достаточно того, что результат измерения (наблюдения) формируется под действием многих причин, каждая из которых оказывает малое воздействие. Это не так. Важно, как эти причины действуют. Если аддитивно – то имеет приближенно нормальное распределение. Если мультипликативно (т.е. действия отдельных причин перемножаются, а не складываются), то распределение близко не к нормальному, а к так называемому логарифмически нормальному, т.е. не , а имеет приблизительно нормальное распределение. Если же нет оснований считать, что действует один из этих двух механизмов формирования итогового результата (или какой-либо иной вполне определенный механизм), то про распределение ничего определенного сказать нельзя.
Из сказанного вытекает, что в конкретной прикладной задаче нормальность результатов измерений (наблюдений), как правило, нельзя установить из общих соображений, ее следует проверять с помощью статистических критериев. Или же использовать непараметрические статистические методы, не опирающиеся на предположения о принадлежности функций распределения результатов измерений (наблюдений) к тому или иному параметрическому семейству.
Непрерывные распределения, используемые в вероятностно-статистических методах принятия решений. Кроме масштабно-сдвигового семейства нормальных распределений, широко используют ряд других семейств распределения – логарифмически нормальных, экспоненциальных, Вейбулла-Гнеденко, гамма-распределений. Рассмотрим эти семейства.
Случайная величина имеет логарифмически нормальное распределение, если случайная величина имеет нормальное распределение. Тогда . также имеет нормальное распределение , где – натуральный логарифм . Плотность логарифмически нормального распределения такова:
Из центральной предельной теоремы следует, что произведение независимых положительных случайных величин , при больших можно аппроксимировать логарифмически нормальным распределением. В частности, мультипликативная модель формирования заработной платы или дохода приводит к рекомендации приближать распределения заработной платы и дохода логарифмически нормальными законами. Для России эта рекомендация оказалась обоснованной – статистические данные подтверждают ее.
Имеются и другие вероятностные модели, приводящие к логарифмически нормальному закону. Классический пример такой модели дан А.Н. Колмогоровым [ [ 2.8 ] ], который из физически обоснованной системы постулатов вывел заключение о том, что размеры частиц при дроблении кусков руды, угля и т.п. на шаровых мельницах имеют логарифмически нормальное распределение.
Перейдем к другому семейству распределений, широко используемому в различных вероятностно-статистических методах принятия решений и других прикладных исследованиях, – семейству экспоненциальных распределений. Начнем с вероятностной модели, приводящей к таким распределениям. Для этого рассмотрим "поток событий", т.е. последовательность событий, происходящих одно за другим в какие-то моменты времени. Примерами могут служить потоки: вызовов на телефонной станции; отказов оборудования в технологической цепочке; отказов изделий при испытаниях продукции; обращений клиентов в отделение банка; покупателей, обращающихся за товарами и услугами, и т.д. В теории потоков событий справедлива теорема, аналогичная центральной предельной теореме, но в ней речь идет не о суммировании случайных величин, а о суммировании потоков событий. Рассматривается суммарный поток, составленный из большого числа независимых потоков, ни один из которых не оказывает преобладающего влияния на суммарный поток. Например, поток вызовов, поступающих на телефонную станцию, слагается из большого числа независимых потоков вызовов, исходящих от отдельных абонентов. Доказано [ [ 2.3 ] ], что в случае, когда характеристики потоков не зависят от времени, суммарный поток полностью описывается одним числом – интенсивностью потока. Для суммарного потока рассмотрим случайную величину - длину промежутка времени между последовательными событиями. Ее функция распределения имеет вид
( 10) |
Это распределение называется экспоненциальным распределением, так как в формуле (10) участвует экспоненциальная функция . Величина – масштабный параметр. Иногда вводят и параметр сдвига , экспоненциальным называют распределение случайной величины , где распределение задается формулой (10).
Экспоненциальные распределения – частный случай так называемых распределений Вейбулла-Гнеденко. Они названы по фамилиям инженера В. Вейбулла, введшего эти распределения в практику анализа результатов усталостных испытаний, и математика Б.В.Гнеденко (1912–1995), получившего такие распределения в качестве предельных при изучении максимального из результатов испытаний. Пусть – случайная величина, характеризующая длительность функционирования изделия, сложной системы, элемента (т.е. ресурс, наработку до предельного состояния и т.п.), длительность функционирования предприятия или жизни живого существа и т.д. Важную роль играет интенсивность отказа
( 11) |
Опишем типичное поведение интенсивности отказа. Весь интервал времени можно разбить на три периода. На первом из них функция имеет высокие значения и явную тенденцию к убыванию (чаще всего она монотонно убывает). Это можно объяснить наличием в рассматриваемой партии единиц продукции с явными и скрытыми дефектами, которые приводят к относительно быстрому выходу из строя этих единиц продукции. Первый период называют "периодом приработки" (или "обкатки"). Именно на него обычно распространяется гарантийный срок.
Затем наступает период нормальной эксплуатации, характеризующийся приблизительно постоянной и сравнительно низкой интенсивностью отказов. Природа отказов в этот период носит внезапный характер (аварии, ошибки эксплуатационных работников и т.п.) и не зависит от длительности эксплуатации единицы продукции.
Наконец, последний период эксплуатации – период старения и износа. Природа отказов в этот период – в необратимых физико-механических и химических изменениях материалов, приводящих к прогрессирующему ухудшению качества единицы продукции и окончательному выходу ее из строя.
Каждому периоду соответствует свой вид функции . Рассмотрим класс степенных зависимостей
( 12) |
Соотношение (12) при заданной интенсивности отказа – дифференциальное уравнение относительно функции . Из теории дифференциальных уравнений следует, что
( 13) |
Подставив (12) в (13), получим, что
( 14) |
Распределение, задаваемое формулой (14), называется распределением Вейбулла-Гнеденко. Поскольку
где( 15) |
Плотность распределения Вейбулла-Гнеденко имеет вид
( 16) |
Экспоненциальное распределение – весьма частный случай распределения Вейбулла-Гнеденко, соответствующий значению параметра формы .
Распределение Вейбулла-Гнеденко применяется также при построении вероятностных моделей ситуаций, в которых поведение объекта определяется "наиболее слабым звеном". Подразумевается аналогия с цепью, сохранность которой определяется тем ее звеном, которое имеет наименьшую прочность. Другими словами, пусть – независимые одинаково распределенные случайные величины,
В ряде прикладных задач большую роль играют и , в частности, при исследовании максимально возможных значений ("рекордов") тех или иных значений, например, страховых выплат или потерь из-за коммерческих рисков, при изучении пределов упругости и выносливости стали, ряда характеристик надежности и т.п. Показано, что при больших распределения и , как правило, хорошо описываются распределениями Вейбулла-Гнеденко. Основополагающий вклад в изучение распределений и внес советский математик Б.В. Гнеденко. Использованию полученных результатов в экономике, менеджменте, технике и других областях посвящены труды В. Вейбулла, Э. Гумбеля, В.Б. Невзорова, Э.М. Кудлаева и других специалистов.
Перейдем к семейству гамма-распределений. Они широко применяются в экономике и менеджменте, теории и практике надежности и испытаний, в различных областях техники, метеорологии и т.д. В частности, гамма-распределению подчинены во многих ситуациях такие величины, как общий срок службы изделия, длина цепочки токопроводящих пылинок, время достижения изделием предельного состояния при коррозии, время наработки до -го отказа, ., и т.д. Продолжительность жизни больных хроническими заболеваниями, время достижения определенного эффекта при лечении в ряде случаев имеют гамма-распределение. Это распределение наиболее адекватно для описания спроса в экономико-математических моделях управления запасами (логистики).
Плотность гамма-распределения имеет вид
( 17) |
Плотность вероятности в формуле (17) определяется тремя параметрами , где . При этом является параметром формы, – параметром масштаба и – параметром сдвига. Множитель является нормировочным, он введен, чтобы
Здесь – одна из используемых в математике специальных функций, так называемая "гамма-функция", по которой названо и распределение, задаваемое формулой (17),
При фиксированном формула (17) задает масштабно-сдвиговое семейство распределений, порождаемое распределением с плотностью
( 18) |
Распределение вида (18) называется стандартным гамма-распределением. Оно получается из формулы (17) при и .
Частным случаем гамма-распределений при являются экспоненциальные распределения (с ). При натуральном и гамма-распределения называются распределениями Эрланга. С работ датского ученого К.А. Эрланга (1878–1929), сотрудника Копенгагенской телефонной компании, изучавшего в 1908–1922 гг. функционирование телефонных сетей, началось развитие теории массового обслуживания. Эта теория занимается вероятностно-статистическим моделированием систем, в которых происходит обслуживание потока заявок, с целью принятия оптимальных решений. Распределения Эрланга используют в тех же прикладных областях, в которых применяют экспоненциальные распределения. Это основано на следующем математическом факте: сумма независимых случайных величин, экспоненциально распределенных с одинаковыми параметрами и , имеет гамма-распределение с параметром формы , параметром масштаба и параметром сдвига . При получаем распределение Эрланга.
Если случайная величина имеет гамма-распределение с параметром формы таким, что - целое число, и , то имеет распределение хи-квадрат с степенями свободы.
Случайная величина с гамма-распределением имеет следующие характеристики:
Нормальное распределение – предельный случай гамма-распределения. Точнее, пусть – случайная величина, имеющая стандартное гамма-распределение, заданное формулой (18). Тогда
для любого действительного числа , где – функция стандартного нормального распределения .В прикладных исследованиях используются и другие параметрические семейства распределений, из которых наиболее известны система кривых Пирсона, ряды Эджворта и Шарлье. Здесь они не рассматриваются.
Дискретные распределения, используемые в вероятностно-статистических методах принятия решений. Наиболее часто используют три семейства дискретных распределений – биномиальных, гипергеометрических и Пуассона, а также некоторые другие – геометрических, отрицательных биномиальных, мультиномиальных, отрицательных гипергеометрических и т.д.
Как уже говорилось, биномиальное распределение имеет место при независимых испытаниях, в каждом из которых с вероятностью появляется событие . Если общее число испытаний задано, то число испытаний , в которых появилось событие , имеет биномиальное распределение. Для биномиального распределения вероятность принятия случайной величиной значения определяется формулой
( 19) |
Если и - независимые биномиальные случайные величины с одним и тем же параметром , определенные по выборкам с объемами и соответственно, то - биномиальная случайная величина, имеющая распределение (19) с и . Это замечание расширяет область применимости биномиального распределения, позволяя объединять результаты нескольких групп испытаний, когда есть основания полагать, что всем этим группам соответствует один и тот же параметр.
Характеристики биномиального распределения вычислены ранее:
В 2.2 (События и вероятности) для биномиальной случайной величины доказан закон больших чисел:
для любого . С помощью центральной предельной теоремы закон больших чисел можно уточнить, указав, насколько отличается от .Теорема Муавра-Лапласа. Для любых чисел и , , имеем
где - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1.Для доказательства достаточно воспользоваться представлением в виде суммы независимых случайных величин, соответствующих исходам отдельных испытаний, формулами для и и центральной предельной теоремой.
Эта теорема для случая доказана английским математиком А. Муавром (1667-1754) в 1730 г. В приведенной выше формулировке она была доказана в 1810 г. французским математиком Пьером Симоном Лапласом (1749 - 1827).
Гипергеометрическое распределение имеет место при выборочном контроле конечной совокупности объектов объема по альтернативному признаку. Каждый контролируемый объект классифицируется либо как обладающий признаком , либо как не обладающий этим признаком. Гипергеометрическое распределение имеет случайная величина , равная числу объектов, обладающих признаком в случайной выборке объема , где . Например, число дефектных единиц продукции в случайной выборке объема из партии объема имеет гипергеометрическое распределение, если . Другой пример - лотерея. Пусть признак билета - это признак "быть выигрышным". Пусть всего билетов , а некоторое лицо приобрело из них. Тогда число выигрышных билетов у этого лица имеет гипергеометрическое распределение.
Для гипергеометрического распределения вероятность принятия случайной величиной значения y имеет вид
( 20) |
Простой случайной выборкой объема из совокупности объема называется выборка, полученная в результате случайного отбора, при котором любой из наборов из объектов имеет одну и ту же вероятность быть отобранным. Методы случайного отбора выборок респондентов (опрашиваемых) или единиц штучной продукции рассматриваются в инструктивно-методических и нормативно-технических документах. Один из методов отбора таков: объекты отбирают один из другим, причем на каждом шаге каждый из оставшихся в совокупности объектов имеет одинаковые шансы быть отобранным. В литературе для рассматриваемого типа выборок используются также термины "случайная выборка", "случайная выборка без возвращения".
Поскольку объемы генеральной совокупности (партии) и выборки обычно известны, то подлежащим оцениванию параметром гипергеометрического распределения является . В статистических методах управления качеством продукции - обычно число дефектных единиц продукции в партии. Представляет интерес также характеристика распределения - уровень дефектности.
Для гипергеометрического распределения
Последний множитель в выражении для дисперсии близок к 1, если . Если при этом сделать замену , то выражения для математического ожидания и дисперсии гипергеометрического распределения перейдут в выражения для математического ожидания и дисперсии биномиального распределения. Это не случайно. Можно показать, что
при , где . Справедливо предельное соотношение и этим предельным соотношением можно пользоваться при .Третье широко используемое дискретное распределение - распределение Пуассона. Случайная величина имеет распределение Пуассона, если
где - параметр распределения Пуассона, и для всех прочих (при обозначено ). Для распределения ПуассонаЭто распределение названо в честь французского математика С.Д.Пуассона (1781-1840), впервые получившего его в 1837 г. Распределение Пуассона является предельным случаем биномиального распределения, когда вероятность осуществления события мала, но число испытаний велико, причем . Точнее, справедливо предельное соотношение
Поэтому распределение Пуассона (в старой терминологии "закон распределения") часто называют также "законом редких событий".
Распределение Пуассона возникает в теории потоков событий (см. выше). Доказано, что для простейшего потока с постоянной интенсивностью число событий (вызовов), происшедших за время , имеет распределение Пуассона с параметром . Следовательно, вероятность того, что за время не произойдет ни одного события, равна , т.е. функция распределения длины промежутка между событиями является экспоненциальной.
Распределение Пуассона используется при анализе результатов выборочных маркетинговых обследований потребителей, расчете оперативных характеристик планов статистического приемочного контроля в случае малых значений приемочного уровня дефектности, для описания числа разладок статистически управляемого технологического процесса в единицу времени, числа "требований на обслуживание", поступающих в единицу времени в систему массового обслуживания, статистических закономерностей несчастных случаев и редких заболеваний, и т.д.
Описание иных параметрических семейств дискретных распределений и возможности их практического использования рассматриваются в литературе.