Не могу найти требования по оформлению выпускной контрольной работы по курсу профессиональной переподготовки "Менеджмент предприятия" |
Статистика нечисловых данных
Законы больших чисел и состоятельность статистических оценок в пространствах произвольной природы
Законы больших чисел состоят в том, что эмпирические средние сходятся к теоретическим. В классическом варианте: выборочное среднее арифметическое при определенных условиях сходится по вероятности при росте числа слагаемых к математическому ожиданию. На основе законов больших чисел обычно доказывают состоятельность различных статистических оценок. В целом эта тематика занимает заметное место в теории вероятностей и математической статистике.
Однако математический аппарат при этом основан на свойствах сумм случайных величин (векторов, элементов линейных пространств). Следовательно, он не пригоден для изучения вероятностных и статистических проблем, связанных со случайными объектами нечисловой природы. Это такие объекты, как бинарные отношения, нечеткие множества, вообще элементы пространств без векторной структуры. Объекты нечисловой природы все чаще встречаются в прикладных исследованиях. Много конкретных примеров приведено выше в настоящей лекции. Поэтому представляется полезным получение законов больших чисел в пространствах нечисловой природы. Необходимо решить следующие задачи.
- Определить понятие эмпирического среднего.
- Определить понятие теоретического среднего.
- Ввести понятие сходимости эмпирических средних к теоретическому.
- Доказать при тех или иных комплексах условий сходимость эмпирических средних к теоретическому.
- Обобщив это доказательство, получить метод обоснования состоятельности различных статистических оценок.
- Дать применения полученных результатов при решении конкретных задач.
Ввиду принципиальной важности рассматриваемых результатов приводим доказательство закона больших чисел, а также результаты компьютерного анализа множества эмпирических средних.
Определения средних величин. Пусть - пространство произвольной природы,
- его элементы. Чтобы ввести эмпирическое среднее для
будем использовать действительнозначную (т.е. с числовыми значениями) функцию
двух переменных со значениями в
. В стандартных математических обозначениях,
Величина
интерпретируется как показатель различия между
и
: чем
больше, тем
и
сильнее различаются. В качестве
можно использовать расстояние в
, квадрат расстояния и т.п.
Определение 1. Средней величиной для совокупности (относительно меры различия
), обозначаемой любым из трех способов:
![х_{ср} = E_n(f) = E_n(x_1, x_2, x_3, \dots, x_n ; f),](/sites/default/files/tex_cache/db494d8a8536ec598e1e3ca5b63f9555.png)
называем решение оптимизационной задачи
![\sum_{i=1}^nf(x,y) \to \min, y \in X](/sites/default/files/tex_cache/ddb2afe72cde8a110bb3e262ac03e197.png)
Это определение согласуется с классическим: если , то
- выборочное среднее арифметическое. Если же
, то при
имеем
, при
эмпирическое среднее является отрезком
. Здесь через
обозначен
-ый член вариационного ряда, построенного по
, т.е.
-я порядковая статистика. Таким образом, при
решение задачи (1) дает естественное определение выборочной медианы, правда, несколько отличающееся от предлагаемого в курсах "Общей теории статистики", в котором при
медианой называют полусумму двух центральных членов вариационного ряда
. Иногда
называют левой медианой , а
- правой медианой
[3].
Решением задачи (1) является множество , которое может быть пустым, состоять из одного или многих элементов. Выше приведен пример, когда решением является отрезок. Если
а среднее арифметическое выборки равно
, то
пусто.
При моделировании реальных ситуаций часто можно принять, что состоит из конечного числа элементов, а тогда
непусто - минимум на конечном множестве всегда достигается.
Понятия случайного элемента со значениями в
, его распределения, независимости случайных элементов используем согласно пункту 2 настоящей лекции, т.е. справочнику Ю.В. Прохорова и Ю.А. Розанова [25]. Будем считать, что функция
измерима относительно
-алгебры, участвующей в определении случайного элемента
. Тогда
при фиксированном
является действительнозначной случайной величиной. Предположим, что она имеет математическое ожидание.
Определение 2. Теоретическим средним (математическим ожиданием) для случайного элемента относительно меры различия
, обозначаемом
, называется решение оптимизационной задачи
![Ef(x(\omega),y) \to \min, y \in X](/sites/default/files/tex_cache/96c64e1d2e5ab287a61c339efd96a034.png)
Это определение также согласуется с классическим. Если , то
- обычное математическое ожидание, при этом
- дисперсия случайной величины
. Если же
то
, где
, причем
- функция распределения случайной величины
. Если график
имеет плоский участок на уровне
, то медиана - теоретическое среднее в смысле определения 2 - является отрезком. В классическом случае обычно говорят, что каждый элемент отрезка
является одним из возможных значений медианы. Поскольку наличие указанного плоского участка - исключительный случай, то обычно решением задачи (2) является множество из одного элемента
- классическая медиана распределения случайной величины
.
Теоретическое среднее можно определить лишь тогда, когда
существует при всех
. Оно может быть пустым множеством, например, если
. И то, и другое исключается, если
конечно. Однако и для конечных Х теоретическое среднее может состоять не из одного, а из многих элементов. Отметим, однако, что в множестве всех распределений вероятностей на
подмножество тех распределений, для которых
состоит более чем из одного элемента, имеет коразмерность 1, поэтому основной является ситуация, когда множество
содержит единственный элемент [3].
Существование средних величин. Под существованием средних величин будем понимать непустоту множеств решений соответствующих оптимизационных задач.
Если состоит из конечного числа элементов, то минимум в задачах (1) и (2) берется по конечному множеству, а потому, как уже отмечалось, эмпирические и теоретические средние существуют.
Ввиду важности обсуждаемой темы приведем доказательства. Для строгого математического изложения нам понадобятся термины из раздела математики под названием "общая топология". Топологические термины и результаты будем использовать в соответствии с классической монографией [29]. Так, топологическое пространство называется бикомпактным в том и только в том случае, когда из каждого его открытого покрытия можно выбрать конечное подпокрытие [29, с.183].
Теорема 1. Пусть - бикомпактное пространство, функция
непрерывна на
(в топологии произведения). Тогда эмпирическое и теоретическое средние существуют.
Доказательство. Функция от
непрерывна, сумма непрерывных функций непрерывна, непрерывная функция на бикомпакте достигает своего минимума, откуда и следует заключение теоремы относительно эмпирического среднего.
Перейдем к теоретическому среднему. По теореме Тихонова [29, с.194] из бикомпактности вытекает бикомпактность
. Для каждой точки
из
рассмотрим
- окрестность в
в смысле показателя различия
, т.е. множество
![U(x,y)=\{(x', y'):|f(x,y)-f(x',y')| < \epsilon /2\}](/sites/default/files/tex_cache/8ff28f05881afec56561eec2782c2756.png)
Поскольку непрерывна, то множества
открыты в рассматриваемой топологии в
. По теореме Уоллеса [29, с.193] существуют открытые (в
) множества
и
, содержащие
и
соответственно и такие, что их декартово произведение
целиком содержится внутри
.
Рассмотрим покрытие открытыми множествами
. Из бикомпактности
вытекает существование конечного подпокрытия
. Для каждого
из
рассмотрим все декартовы произведения
, куда входит точка
при каком-либо
. Таких декартовых произведений и их первых множителей
конечное число. Возьмем пересечение таких первых множителей
и обозначим его
. Это пересечение открыто, как пересечение конечного числа открытых множеств, и содержит точку
. Из покрытия бикомпактного пространства X открытыми множествами
выберем открытое подпокрытие
.
Покажем, что если и
принадлежат одному и тому же Zj при некотором
, то
![]() |
( 3) |
Пусть при некотором
. Пусть
,
, - совокупность всех тех исходных декартовых произведений из системы
, куда входят точки
при различных
. Покажем, что их объединение содержит также точки
и
при всех
. Действительно, если
входит в
, то
входит в
, а
и
вместе с
входят в
, поскольку
и
входят в
. Таким образом,
и
принадлежат
, а потому согласно определению
![|f(x'_1,y)-f(x_i,y_i)| < \epsilon /2,\\
|f(x'_2,y)-f(x_i,y_i)| < \epsilon /2](/sites/default/files/tex_cache/91df64ce822e92a3860e7d5b237ff075.png)
откуда и следует неравенство (3).
Поскольку - бикомпактное пространство, то функция
ограничена на
а потому существует математическое ожидание
для любого случайного элемента
, удовлетворяющего приведенным в предыдущем разделе условиям согласования топологии, связанной с
, и измеримости, связанной с
. Если
и
принадлежат одному открытому множеству
то
а потому функция
![]() |
( 4) |
непрерывна на . Поскольку непрерывная функция на бикомпактном множестве достигает своего минимума, т.е. существуют такие точки
, на которых
, то теорема 1 доказана.
В ряде интересных для приложений ситуаций не является бикомпактным пространством. Например, если
. В этих случаях приходится наложить на показатель различия
некоторые ограничения, например, так, как это сделано в теореме 2.