НОУ ИНТУИТ | Прикладная статистика. Лекция 5: Описание данных

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 4094 / 1041 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00

Темы: Математика, Экономика

Специальности: Экономист

|

Вам нравится? Нравится 61 студенту

| Поделиться |

Поддержать курс

| Скачать электронную книгу

5.5. Средние и законы больших чисел

Законы больших чисел состоят в том, что эмпирические средние сходятся к теоретическим. В классическом варианте: выборочное среднее арифметическое при определенных условиях сходится по вероятности при росте числа слагаемых к математическому ожиданию. На основе законов больших чисел обычно доказывают состоятельность различных статистических оценок. В целом эта тематика занимает заметное место в теории вероятностей и математической статистике.

Однако математический аппарат при этом основан на свойствах сумм случайных величин (векторов, элементов линейных пространств). Следовательно, он не пригоден для изучения вероятностных и статистических проблем, связанных со случайными объектами нечисловой природы. Это такие объекты, как бинарные отношения, нечеткие множества, вообще элементы пространств без векторной структуры. Объекты нечисловой природы все чаще встречаются в прикладных исследованиях. Много конкретных примеров приведено выше в настоящей лекции. Поэтому представляется полезным получение законов больших чисел в пространствах нечисловой природы. Необходимо решить следующие задачи:

определить понятие эмпирического среднего;
определить понятие теоретического среднего;
ввести понятие сходимости эмпирических средних к теоретическому;
доказать при тех или иных комплексах условий сходимость эмпирических средних к теоретическому;
получить метод обоснования состоятельности различных статистических оценок, обобщив это доказательство;
описать способы применения полученных результатов при решении конкретных задач.

Ввиду принципиальной важности рассматриваемых результатов приводим доказательство закона больших чисел, а также результаты компьютерного анализа множества эмпирических средних.

Определения средних величин. Пусть - пространство произвольной природы, x_1, x_2, x_3,...,x_n - его элементы. Чтобы ввести эмпирическое среднее для будем использовать действительнозначную (т.е. с числовыми значениями) функцию f(x,y) двух переменных со значениями в . В стандартных математических обозначениях: $f:X^2\rightarrow R^1$ . Величина f(x,y) интерпретируется как показатель различия между и : чем f(x,y) больше, тем и сильнее различаются. В качестве можно использовать расстояние в , квадрат расстояния и т.п.

Определение 1. Средней величиной для совокупности x_1, x_2, x_3,...,x_n (относительно меры различия ), обозначаемой любым из трех способов:

$x_{cp}=E_n(f)=E_n(x_1, x_2, x_3,...,x_n;f),$

называем решение оптимизационной задачи

$\sum_{i=1}^n f(x_i,y)\rightarrow \min,y\in X.$

( 1)

Это определение согласуется с классическим: если Х = R^1, f(x,y) = (x - y)^2 , то $х_{ср}$ - выборочное среднее арифметическое. Если же Х = R^1, f(x,y) = |x - y| , то при n = 2k+1 имеем $х_{ср} = x(k+1)$ , при n= 2k эмпирическое среднее является отрезком [x(k), x(k+1)] . Здесь через x(i) обозначен -ый член вариационного ряда, построенного по x_1, x_2, x_3,...,x_n , т.е. -я порядковая статистика. Таким образом, при Х = R^1, f(x,y) = |x - y| решение задачи (1) дает естественное определение выборочной медианы. Правда, несколько отличающееся от определения, предлагаемого в курсе "Общей теории статистики", в котором при n = 2k медианой называют полусумму двух центральных членов вариационного ряда (x(k) + x(k+1))/2 . Иногда x(k) называют левой медианой, а х(k+1) - правой [ [ 1.15 ] ].

Решением задачи (1) является множество E_n(f) , которое может быть пустым, состоять из одного или многих элементов. Выше приведен пример, когда решением является отрезок. Если $Х = R^1\backslash\{х_0\}, f(x,y) = (x - y)^2$ , а среднее арифметическое выборки равно х_0 , то E_n(f) пусто.

При моделировании реальных ситуаций часто можно принять, что состоит из конечного числа элементов. Тогда множество E_n(f) непусто - минимум на конечном множестве всегда достигается.

Понятия случайного элемента $x=x(\omega)$ со значениями в , его распределения, независимости случайных элементов используем согласно предыдущему пункту настоящей лекции, т.е. каноническому справочнику Ю.В. Прохорова и Ю.А. Розанова [ [ 2.16 ] ]. Будем считать, что функция измерима относительно $\sigma$ -алгебры, участвующей в определении случайного элемента $x=x(\omega)$ . Тогда $f(x(\omega),y)$ при фиксированном y является действительнозначной случайной величиной. Предположим, что она имеет математическое ожидание.

Определение 2. Теоретическим средним E(x,f) (другими словами, математическим ожиданием) случайного элемента $x=x(\omega)$ относительно меры различия называется решение оптимизационной задачи

$Mf(x(\omega),y)\rightarrow\min, y\in X.$

( 2)

Это определение, как и для эмпирических средних, согласуется с классическим. Если Х=R^1, f(x,y) = (x-y)^2 , то $Е(x,f) = М(x(\omega))$ - обычное математическое ожидание. При этом $Mf(x(\omega),E(x,f))$ - дисперсия случайной величины $x=x(\omega)$ . Если же Х=R^1, f(x,y) = |x-y| , то E(x,f) = [a,b] , где $a = \sup\{t: F(t)\le 0,5\}, b=\inf{t: F(t)\ge 0,5\}$ , где F(t) - функция распределения случайной величины $x=x(\omega)$ . Если график F(t) имеет плоский участок на уровне F(t) = 0,5 , то медиана - теоретическое среднее в смысле определения 2 - является отрезком. В классическом случае обычно говорят, что каждый элемент отрезка [a; b] является одним из возможных значений медианы. Поскольку наличие указанного плоского участка - исключительный случай, то обычно решением задачи (2) является множество из одного элемента a = b - классическая медиана распределения случайной величины $x=x(\omega)$ .

Теоретическое среднее E(x, f) можно определить лишь тогда, когда $Mf(x(\omega),y)$ существует при всех $y\in X$ . Оно может быть пустым множеством, например, если $X=R^1\backslash\{x_0\}, f(x,y) = (x-y)^2, x_0=М(x(\omega))$ . И то, и другое исключается, если конечно. Однако и для конечных теоретическое среднее может состоять не из одного, а из многих элементов. Отметим, однако, что в множестве всех распределений вероятностей на подмножество тех распределений, для которых E(x,f) состоит более чем из одного элемента, имеет коразмерность 1, поэтому основной является ситуация, когда множество E(x,f) содержит единственный элемент [ [ 1.15 ] ].

Существование средних величин. Под существованием средних величин будем понимать непустоту множеств решений соответствующих оптимизационных задач.

Если состоит из конечного числа элементов, то минимум в задачах (1) и (2) берется по конечному множеству. А потому, как уже отмечалось, эмпирические и теоретические средние существуют.

Ввиду важности обсуждаемой темы приведем доказательства. Для строгого математического изложения нам понадобятся термины из раздела математики под названием "общая топология". Топологические термины и результаты будем использовать в соответствии с классической монографией [ [ 4.11 ] ]. Так, топологическое пространство называется бикомпактным в том и только в том случае, когда из каждого его открытого покрытия можно выбрать конечное подпокрытие [ [ 4.11 ] , с.183].

Теорема 1. Пусть - бикомпактное пространство, функция непрерывна на X^2 (в топологии произведения). Тогда эмпирическое и теоретическое средние существуют.

Доказательство. Функция f(x_i, y) от y непрерывна, сумма непрерывных функций непрерывна, непрерывная функция на бикомпакте достигает своего минимума, откуда и следует заключение теоремы относительно эмпирического среднего.

Перейдем к теоретическому среднему. По теореме Тихонова [ [ 4.11 ] , с.194] из бикомпактности вытекает бикомпактность X^2 . Для каждой точки (x, y) из X^2 рассмотрим $\varepsilon/2$ - окрестность в X^2 в смысле показателя различия , т.е. множество U(x,y)=\{(x',y'):|f(x,y)-f(x',y')|<\varepsilon/2\}.

Поскольку непрерывна, то множества U(x,y) открыты в рассматриваемой топологии в X^2 . По теореме Уоллеса [ [ 4.11 ] , с.193] существуют открытые (в ) множества V(x) и W(y) , содержащие и соответственно и такие, что их декартово произведение $V(x)\times W(y)$ целиком содержится внутри U(x, y) .

Рассмотрим покрытие X^2 открытыми множествами $V(x)\times W(y)$ . Из бикомпактности X^2 вытекает существование конечного подпокрытия $\{V(x_i)\times W(y_i), i=1,2,...,m}$ . Для каждого из рассмотрим все декартовы произведения $V(x_i)\times W(y_i)$ , куда входит точка (x,y) при каком-либо . Таких декартовых произведений и их первых множителей V(x_i) конечное число. Возьмем пересечение таких первых множителей V(x_i) и обозначим его Z(x) . Это пересечение открыто, как пересечение конечного числа открытых множеств, и содержит точку . Из покрытия бикомпактного пространства открытыми множествами Z(x) выберем открытое подпокрытие Z_1, Z_2, ..., Z_k .

Покажем, что если x'_1 и x'_2 принадлежат одному и тому же Z_j при некотором , то

$\sup\{|f(x'_1,y)-f(x'_2,y)|,y\in X\}<\varepsilon.$

( 3)

Пусть Z_j = Z(x_0) при некотором x_0 . Пусть $V(x_i)\times W(y_i), i\in I$ , - совокупность всех тех исходных декартовых произведений из системы $\{V(x_i)\times W(y_i), i=1,2,...,m\}$ , куда входят точки (x_0,y) при различных . Покажем, что их объединение содержит также точки (x'_1,y) и (x'_2,y) при всех . Действительно, если (х_0,y) входит в $V(x_i)\times W(y_i)$ , то y входит в W(y_i) , а x'_1 и x'_2 вместе с x_0 входят в V(x_i) , поскольку x'_1, x'_2 и x_0 входят в Z(x_0) . Таким образом, (x'_1,y) и (x'_2,y) принадлежат $V(x_i)\times W(y_i)$ , а потому согласно определению $V(x_i)\times W(y_i)$

$|f(x'_1,y)-f(x_i,y_i)|<\varepsilon/2, |f((x'_2,y))-f(x_i,y_i)|<\varepsilon/2,$

откуда и следует неравенство (3).

Поскольку X^2 - бикомпактное пространство, то функция ограничена на X^2 , а потому существует математическое ожидание $Mf(x(\omega),y)$ для любого случайного элемента $x(\omega)$ , удовлетворяющего приведенным выше условиям согласования топологии, связанной с , и измеримости, связанной с $x(\omega)$ . Если x_1 и x_2 принадлежат одному открытому множеству Z_j , то

$|Mf(x_1,y)-Mf(x_2,y)|<\varepsilon,$

а потому функция

$g(y)=Mf(x(\omega),y)$

( 4)

непрерывна на

. Поскольку непрерывная функция на бикомпактном множестве достигает своего минимума, т.е. существуют такие точки

, на которых $g(z) = \inf\{g(y),y\in X\}$ , то теорема 1 доказана.

В ряде интересных для приложений ситуаций не является бикомпактным пространством. Например, если X = R^1 . В этих случаях приходится наложить на показатель различия некоторые ограничения, например, так, как это сделано в теореме 2.

Теорема 2. Пусть - топологическое пространство, непрерывная (в топологии произведения) функция $f:X^2\rightarrow R^1$ неотрицательна, симметрична (т.е. f(x,y) = f(y,x) для любых и из ), существует число D>0 такое, что при всех x, y, z из

$f(x,y)\le D\{f(x,z)+f(z,y)\}.$

( 5)

Пусть в существует точка x_0 такая, что при любом положительном множество $\{x:f(x,x_0)\le R\}$ является бикомпактным. Пусть для случайного элемента $x(\omega)$ , согласованного с топологией в рассмотренном выше смысле, существует $g(x_0)=Mf(x(\omega),x_0)$ .

Тогда существуют (т.е. непусты) математическое ожидание E(x,f) и эмпирические средние E_n(f) .

Замечание. Условие (5) - некоторое обобщение неравенства треугольника. Например, если - метрика в , а f = g^p при некотором натуральном , то для выполнено соотношение (5) с D=2^p .

Доказательство. Рассмотрим функцию g(y) , определенную формулой (4). Имеем

$f(x(\omega),y)\le D\{f(x(\omega),x_0)+f(x_0,y)\}.$

( 6)

Поскольку по условию теоремы g(x_0) существует, а потому конечно, то из оценки (6) следует существование и конечность g(y) при всех из . Докажем непрерывность этой функции.

Рассмотрим шар (в смысле меры различия ) радиуса с центром в x_0 :

$K(R)=\{x:f(x,x_0)\le R\},R>0.$

В соответствии с условием теоремы K(R) как подпространство топологического пространства является бикомпактным. Рассмотрим произвольную точку из . Справедливо разложение

$f(x(\omega),y)=f(x(\omega),y)\chi(x(\omega)\in K(R))+f(x(\omega),y)\chi(x(\omega)\notin K(R)),$

где $\chi(C)$ - индикатор множества

. Следовательно,

$g(y)=Mf(x(\omega),y)\chi(x(\omega)\in K(R))+Mf(x(\omega),y)\chi(x(\omega)\notin K(R)).$

( 7)

Рассмотрим второе слагаемое в (7). В силу (5)

$\begin{aligned} f(x(\omega),y)\chi(x(\omega)\notin K(R))\le f(x(\omega),x_0)\chi(x(\omega)\notin K(R)) + \\ +f(x_0,y)\chi(x(\omega)\notin K(R)). \end{aligned}$

( 8)

Возьмем математическое ожидание от обеих частей (8):

$\begin{gathered} Mf(x(\omega),y)\chi(x(\omega)\notin K(R))\le D\int\limits_R^{+\infty}tdP\{f(x(\omega),x_0)\le t\}+\\ +Df(x_0,y)P(x(\omega)\notin K(R)). \end{gathered}$

( 9)

В правой части (9) оба слагаемых стремятся к 0 при безграничном возрастании : первое - в силу того, что

$g(x_0)=Mf(x(\omega),x_0)=\int\limits_0^{+\infty}tdP(f(x(\omega),x_0)\le t)<\infty,$

второе - в силу того, что распределение случайного элемента $x(\omega)$ сосредоточено на

и

$X\backslash\bigcup_{R>0}K(R)=\varnothing.$

Пусть U(x) - такая окрестность (т.е. открытое множество, содержащее ), для которой

$\sup\{f(y,x),y\in U(x)\}<+\infty.$

Имеем

$f(y,x_0)\le D(f(x_0,x)+f(x,y)).$

( 10)

В силу (9) и (10) при безграничном возрастании

$Mf(x(\omega),y)\chi(x(\omega)\notin K(R))\rightarrow 0$

( 11)

равномерно по $y\in U(x)$ . Пусть R(0)

таково, что левая часть (11) меньше $\varepsilon>0$ при R>R(0)

и, кроме того, $y\in U(x)\subseteq K(R(0))$ . Тогда при R>R(0)

$|g(y)-g(x)|\le |Mf(x(\omega),y)\chi(x(\omega)\in K(R))-Mf(x(\omega),x)\chi(x(\omega)\in K(R))|+2\varepsilon.$

( 12)

Нас интересует поведение выражения в правой части формулы (12) при $y\in U(x)$ . Рассмотрим f_1 - сужение функции на замыкание декартова произведения множеств $U(x)\times K(R)$ , и случайный элемент $x_1(\omega)=x(\omega)\chi(x(\omega)\in K(R))$ . Тогда

$Mf(x(\omega),y)\chi(x(\omega)\in K(R))=Mf_1(x_1(\omega),y)$

при $y\in U(x)$ , а непрерывность функции $g_1(y)=Mf_1(x_1(\omega),y)$ была доказана в теореме 1. Последнее означает, что существует окрестность U_1(x)

точки x такая, что

$|Mf_1(x_1(\omega),y)-Mf_1(x_1(\omega),x)|<\varepsilon$

( 13)

при $y\in U_1(x)$ . Из (12) и (13) вытекает, что при $y\in U(x)\bigcap U_1(x)$

$|g(y)-g(x)|<3\varepsilon,$

что и доказывает непрерывность функции g(x)

.

Докажем существование математического ожидания E(x,f) . Пусть R(0) таково, что

$P(x(\omega)\in K(R(0)))>1/2.$

( 14)

Пусть - некоторая константа, значение которой будет выбрано позже. Рассмотрим точку из множества K(HR(0))^С - дополнения , т.е. из внешности шара радиуса HR(0) с центром в x_0 . Пусть $x(\omega)\in K(R(0))$ . Тогда имеем

$f(x_0,x)\leD\{f(x_0,x(\omega))+f(x(\omega),x)\},$

откуда

$f(x(\omega),x)\ge\frac{1}{D}f(x_0,x)-f(x_0,x(\omega))\ge\frac{HR(0)}{D}-R(0).$

( 15)

Выбирая достаточно большим, получим с учетом условия (14), что при $x\in K(HR(0))^С$ справедливо неравенство

$Mf(c(\omega),x)\ge\frac12\left(\frac{HR(0)}{D}-R(0)\right).$

( 16)

Можно выбрать так, чтобы правая часть (16) превосходила $g(x_0)=Mf(x(\omega),x_0)$ .

Сказанное означает, что $\text{Argmin}\ g(x)$ достаточно искать внутри бикомпактного множества K(HR(0)) . Из непрерывности функции вытекает, что ее минимум достигается на указанном бикомпактном множестве, а потому - и на всем . Существование (непустота) теоретического среднего E(x,f) доказана.

Докажем существование эмпирического среднего E_n(f) . Есть искушение проводить его дословно так же, как и доказательство существования математического ожидания E(x,f) , лишь с заменой 1/2 в формуле (16) на частоту попадания элементов выборки x_i в шар K(R(0)) . Эта частота, очевидно, стремится к вероятности попадания случайного элемента $x=x(\omega)$ в K(R(0)) , большей 1/2 в соответствии с (14). Однако это рассуждение показывает лишь, что вероятность непустоты E_n(f) стремится к 1 при безграничном росте объема выборки. Точнее, оно показывает, что

$\lim_{n\rightarrow\infty}P\{E_n(f)\ne\varnothing\wedgeE_n(f)\subseteq K(HR(0))\}=1.$

Поэтому пойдем другим путем, не опирающимся к тому же на вероятностную модель выборки. Положим

$R(1)=\max\{f(x_i,x_0),i=1,2,...,n\}.$

( 17)

Если входит в дополнение шара K(HR(1)) , то аналогично (15) имеем

$f(x_i,x_0)\ge\frac{HR(1)}{D}-R(1).$

( 18)

При достаточно большом из (17) и (18) следует, что

$\sum_{i=1}^n f(x_i,x_0)\le nR(1)<\sum_{i=1}^n f(x_i,x),x\in\{K(HR(1))\}^C.$

Следовательно, $\text{Argmin}$ достаточно искать на K(HR(1)) . Заключение теоремы 2 следует из того, что на бикомпактном пространстве минимизируется непрерывная функция.

Теорема 2 полностью доказана.

Дальше >>

Авторизоваться

Прикладная статистика

Описание данных

5.5. Средние и законы больших чисел

Вопросы и ответы