Здравствуйте! 4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1. Сегодня вижу, что я вне курса! Почему так произошло? |
Описание данных
5.5. Средние и законы больших чисел
Законы больших чисел состоят в том, что эмпирические средние сходятся к теоретическим. В классическом варианте: выборочное среднее арифметическое при определенных условиях сходится по вероятности при росте числа слагаемых к математическому ожиданию. На основе законов больших чисел обычно доказывают состоятельность различных статистических оценок. В целом эта тематика занимает заметное место в теории вероятностей и математической статистике.
Однако математический аппарат при этом основан на свойствах сумм случайных величин (векторов, элементов линейных пространств). Следовательно, он не пригоден для изучения вероятностных и статистических проблем, связанных со случайными объектами нечисловой природы. Это такие объекты, как бинарные отношения, нечеткие множества, вообще элементы пространств без векторной структуры. Объекты нечисловой природы все чаще встречаются в прикладных исследованиях. Много конкретных примеров приведено выше в настоящей лекции. Поэтому представляется полезным получение законов больших чисел в пространствах нечисловой природы. Необходимо решить следующие задачи:
- определить понятие эмпирического среднего;
- определить понятие теоретического среднего;
- ввести понятие сходимости эмпирических средних к теоретическому;
- доказать при тех или иных комплексах условий сходимость эмпирических средних к теоретическому;
- получить метод обоснования состоятельности различных статистических оценок, обобщив это доказательство;
- описать способы применения полученных результатов при решении конкретных задач.
Ввиду принципиальной важности рассматриваемых результатов приводим доказательство закона больших чисел, а также результаты компьютерного анализа множества эмпирических средних.
Определения средних величин. Пусть - пространство произвольной природы,
- его элементы. Чтобы ввести эмпирическое среднее для
будем использовать действительнозначную (т.е. с числовыми значениями) функцию
двух переменных со значениями в
. В стандартных математических обозначениях:
. Величина
интерпретируется как показатель различия между
и
: чем
больше, тем
и
сильнее различаются. В качестве
можно использовать расстояние в
, квадрат расстояния и т.п.
Определение 1. Средней величиной для совокупности (относительно меры различия
), обозначаемой любым из трех способов:

![]() |
( 1) |
Это определение согласуется с классическим: если , то
- выборочное среднее арифметическое. Если же
, то при
имеем
, при
эмпирическое среднее является отрезком
. Здесь через
обозначен
-ый член вариационного ряда, построенного по
, т.е.
-я порядковая статистика. Таким образом, при
решение задачи (1) дает естественное определение выборочной медианы.
Правда, несколько отличающееся от определения, предлагаемого в курсе "Общей теории статистики", в котором при
медианой называют полусумму двух центральных членов вариационного ряда
. Иногда
называют левой медианой, а
- правой [
[
1.15
]
].
Решением задачи (1) является множество , которое может быть пустым, состоять из одного или многих элементов. Выше приведен пример, когда решением является отрезок. Если
, а среднее арифметическое выборки равно
, то
пусто.
При моделировании реальных ситуаций часто можно принять, что состоит из конечного числа элементов. Тогда множество
непусто - минимум на конечном множестве всегда достигается.
Понятия случайного элемента со значениями в
, его распределения, независимости случайных элементов используем согласно предыдущему пункту настоящей лекции, т.е. каноническому справочнику Ю.В. Прохорова и Ю.А. Розанова [
[
2.16
]
]. Будем считать, что функция
измерима относительно
-алгебры, участвующей в определении случайного элемента
. Тогда
при фиксированном y является действительнозначной случайной величиной. Предположим, что она имеет математическое ожидание.
Определение 2. Теоретическим средним (другими словами, математическим ожиданием) случайного элемента
относительно меры различия
называется решение оптимизационной задачи
![]() |
( 2) |
Это определение, как и для эмпирических средних, согласуется с классическим. Если , то
- обычное математическое ожидание. При этом
- дисперсия случайной величины
. Если же
, то
, где
, где
- функция распределения случайной величины
. Если график
имеет плоский участок на уровне
, то медиана - теоретическое среднее в смысле определения 2 - является отрезком. В классическом случае обычно говорят, что каждый элемент отрезка
является одним из возможных значений медианы.
Поскольку наличие указанного плоского участка - исключительный случай, то обычно решением задачи (2) является множество из одного элемента
- классическая медиана распределения случайной величины
.
Теоретическое среднее можно определить лишь тогда, когда
существует при всех
. Оно может быть пустым множеством, например, если
. И то, и другое исключается, если
конечно. Однако и для конечных
теоретическое среднее может состоять не из одного, а из многих элементов. Отметим, однако, что в множестве всех распределений вероятностей на
подмножество тех распределений, для которых
состоит более чем из одного элемента, имеет коразмерность 1, поэтому основной является ситуация, когда множество
содержит единственный элемент [
[
1.15
]
].
Существование средних величин. Под существованием средних величин будем понимать непустоту множеств решений соответствующих оптимизационных задач.
Если состоит из конечного числа элементов, то минимум в задачах (1) и (2) берется по конечному множеству. А потому, как уже отмечалось, эмпирические и теоретические средние существуют.
Ввиду важности обсуждаемой темы приведем доказательства. Для строгого математического изложения нам понадобятся термины из раздела математики под названием "общая топология". Топологические термины и результаты будем использовать в соответствии с классической монографией [ [ 4.11 ] ]. Так, топологическое пространство называется бикомпактным в том и только в том случае, когда из каждого его открытого покрытия можно выбрать конечное подпокрытие [ [ 4.11 ] , с.183].
Теорема 1. Пусть - бикомпактное пространство, функция
непрерывна на
(в топологии произведения). Тогда эмпирическое и теоретическое средние существуют.
Доказательство. Функция от y непрерывна, сумма непрерывных функций непрерывна, непрерывная функция на бикомпакте достигает своего минимума, откуда и следует заключение теоремы относительно эмпирического среднего.
Перейдем к теоретическому среднему. По теореме Тихонова [
[
4.11
]
, с.194] из бикомпактности вытекает бикомпактность
. Для каждой точки
из
рассмотрим
- окрестность в
в смысле показателя различия
, т.е. множество
U(x,y)=\{(x',y'):|f(x,y)-f(x',y')|<\varepsilon/2\}.
Поскольку непрерывна, то множества
открыты в рассматриваемой топологии в
. По теореме Уоллеса [
[
4.11
]
, с.193] существуют открытые (в
) множества
и
, содержащие
и
соответственно и такие, что их декартово произведение
целиком содержится внутри
.
Рассмотрим покрытие открытыми множествами
. Из бикомпактности
вытекает существование конечного подпокрытия
. Для каждого
из
рассмотрим все декартовы произведения
, куда входит точка
при каком-либо
. Таких декартовых произведений и их первых множителей
конечное число. Возьмем пересечение таких первых множителей
и обозначим его
. Это пересечение открыто, как пересечение конечного числа открытых множеств, и содержит точку
. Из покрытия бикомпактного пространства
открытыми множествами
выберем открытое подпокрытие
.
Покажем, что если и
принадлежат одному и тому же
при некотором
, то
![]() |
( 3) |
Пусть при некотором
. Пусть
, - совокупность всех тех исходных декартовых произведений из системы
, куда входят точки
при различных
. Покажем, что их объединение содержит также точки
и
при всех
. Действительно, если
входит в
, то y входит в
, а
и
вместе с
входят в
, поскольку
и
входят в
. Таким образом,
и
принадлежат
, а потому согласно определению

Поскольку - бикомпактное пространство, то функция
ограничена на
, а потому существует математическое ожидание
для любого случайного элемента
, удовлетворяющего приведенным выше условиям согласования топологии, связанной с
, и измеримости, связанной с
. Если
и
принадлежат одному открытому множеству
, то

![]() |
( 4) |



В ряде интересных для приложений ситуаций не является бикомпактным пространством. Например, если
. В этих случаях приходится наложить на показатель различия
некоторые ограничения, например, так, как это сделано в теореме 2.
Теорема 2. Пусть - топологическое пространство, непрерывная (в топологии произведения) функция
неотрицательна, симметрична (т.е.
для любых
и
из
), существует число
такое, что при всех
из
![]() |
( 5) |
Пусть в существует точка
такая, что при любом положительном
множество
является бикомпактным. Пусть для случайного элемента
, согласованного с топологией в рассмотренном выше смысле, существует
.
Тогда существуют (т.е. непусты) математическое ожидание и эмпирические средние
.
Замечание. Условие (5) - некоторое обобщение неравенства треугольника. Например, если - метрика в
, а
при некотором натуральном
, то для
выполнено соотношение (5) с
.
Доказательство. Рассмотрим функцию , определенную формулой (4). Имеем
![]() |
( 6) |
Поскольку по условию теоремы существует, а потому конечно, то из оценки (6) следует существование и конечность
при всех
из
. Докажем непрерывность этой функции.
Рассмотрим шар (в смысле меры различия ) радиуса
с центром в
:

В соответствии с условием теоремы как подпространство топологического пространства
является бикомпактным. Рассмотрим произвольную точку
из
. Справедливо разложение



![]() |
( 7) |
Рассмотрим второе слагаемое в (7). В силу (5)
![]() |
( 8) |
Возьмем математическое ожидание от обеих частей (8):
![]() |
( 9) |
В правой части (9) оба слагаемых стремятся к 0 при безграничном возрастании : первое - в силу того, что




Пусть - такая окрестность
(т.е. открытое множество, содержащее
), для которой

Имеем
![]() |
( 10) |
В силу (9) и (10) при безграничном возрастании
![]() |
( 11) |






![]() |
( 12) |
Нас интересует поведение выражения в правой части формулы (12) при . Рассмотрим
- сужение функции
на замыкание декартова произведения множеств
, и случайный элемент
. Тогда




![]() |
( 13) |




Докажем существование математического ожидания . Пусть
таково, что
![]() |
( 14) |
Пусть - некоторая константа, значение которой будет выбрано позже. Рассмотрим точку
из множества
- дополнения
, т.е. из внешности шара радиуса
с центром в
. Пусть
. Тогда имеем

![]() |
( 15) |
Выбирая достаточно большим, получим с учетом условия (14), что при
справедливо неравенство
![]() |
( 16) |
Можно выбрать так, чтобы правая часть (16) превосходила
.
Сказанное означает, что достаточно искать внутри бикомпактного множества
. Из непрерывности функции
вытекает, что ее минимум достигается на указанном бикомпактном множестве, а потому - и на всем
. Существование (непустота) теоретического среднего
доказана.
Докажем существование эмпирического среднего . Есть искушение проводить его дословно так же, как и доказательство существования математического ожидания
, лишь с заменой 1/2 в формуле (16) на частоту попадания элементов выборки
в шар
. Эта частота, очевидно, стремится к вероятности попадания случайного элемента
в
, большей 1/2 в соответствии с (14). Однако это рассуждение показывает лишь, что вероятность непустоты
стремится к 1 при безграничном росте объема выборки. Точнее, оно показывает, что

Поэтому пойдем другим путем, не опирающимся к тому же на вероятностную модель выборки. Положим
![]() |
( 17) |
Если входит в дополнение шара
, то аналогично (15) имеем
![]() |
( 18) |
При достаточно большом из (17) и (18) следует, что

Следовательно, достаточно искать на
. Заключение теоремы 2 следует из того, что на бикомпактном пространстве
минимизируется непрерывная функция.
Теорема 2 полностью доказана.