Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3659 / 734 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 1:

Различные виды статистических данных

Лекция 1: 123456789 || Лекция 2 >

Аксиоматическое введение метрики в пространстве неотрицательных суммируемых функций. Рассмотрим пространство L(E, \mu) неотрицательных суммируемых функций на множестве E с мерой \mu. Далее в настоящем пункте будем рассматривать только функции из L(E, \mu). Интегрирование всюду проводится по пространству Е и по мере \mu. Будем писать g = h или g \leq h, если указанные соотношения справедливы почти всюду по \mu на Е (т.е. могут нарушаться лишь на множестве нулевой меры).

Аксиоматически введем расстояние в пространстве L(E, \mu) (изложение следует работе [ [ 1.18 ] ]). Обозначим M(g,h)=\max(g,h) и m(g,h)=\min(g,h). Пусть D: L(E,\mu) \times L(E,\mu) \rightarrow R^1 - тот основной объект изучения, аксиомы для которого будут сейчас сформулированы.

Аксиома 1. Если gh=0,g+h\ne 0, то D(g,h)=1.

Аксиома 2. Если h\leq g, то D(g,h)=C\int(g-h)d\mu, где множитель С не зависит от h, т.е. C=C(g).

Лемма. Из аксиом 1 и 2 следует, что для h\leq g\ne 0 имеем

D(g,h)=\frac{\int(g-h)d\mu}{\int gd\mu}.

Для доказательства заметим, что по аксиоме 1 D(g,0)=1, а по аксиоме 2 D(g,0)=C\int gd\mu, откуда C=\left( \int gd\mu\right)^{-1}. Подставляя это соотношение в аксиому 2, получаем заключение леммы.

Требование согласованности расстояния в пространстве L(E,\mu) с отношением "находиться между" приводит, как и ранее для расстояния d(A,B), к следующей аксиоме.

Аксиома 3. Для любых g и h справедливо равенство D(g,h)=D(M(g,h),g)+D(M(g,h),h).

Замечание. В ряде реальных ситуаций естественно считать, что наибольшее расстояние между элементами пространства множеств (которое без ограничения общности можно положить равным 1), т.е. наибольшее несходство, соответствует множествам, не имеющим общих элементов. Расстояние, введенное в теореме 3 (формула (1)), этому условию не удовлетворяет. Поэтому в пространстве множеств была аксиоматически введена [ [ 1.21 ] ] так называемая D-метрика (от dissimilarity (англ.) - несходство), для которого это условие выполнено. Она имеет вид:

D(A,B)=
\left\{
\begin{gathered}
\frac{\mu(A\Delta B)}{\mu(A\bigcup B)}, \mu(A\bigcup B) >0,\\
0,\mu(A)=\mu(B)=0.
\end{gathered}
\right. ( 7)

Приведенные выше аксиомы являются обобщениями соответствующих аксиом для D -метрики в пространстве множеств.

Теорема 7. Из аксиом 1–3 следует, что

D(g,h)=
\left\{
\begin{gathered}
\frac{\int|g-h|d\mu}{\int M(g,h)d\mu}, g+h\ne 0, \\
0,g=h=0.
\end{gathered}
\right. ( 8)

Доказательство. Поскольку

(M(g,h)-g)+(M(g,h)-h)=|g-h|,

то заключение теоремы 7 при g+h\ne 0 вытекает из леммы и аксиомы 3. Из аксиомы 2 при g=0 следует, что D(0,0)=0. Легко видеть, что функция D, заданная формулой (8), удовлетворяет аксиомам 1–3 и, кроме того, D(g,h)\leq 1 при любых g и h.

Замечание. Если g и h - индикаторные функции множеств, то формула (8) переходит в формулу (7). Если g и h - функции принадлежности нечетких множеств, то формула (8) задает метрику в пространстве нечетких множеств, а именно, D -метрику в этом пространстве [ [ 1.21 ] ].

Теорема 8. Функция D(g,h), определенная формулой (8), является метрикой в L(E,\mu) (при отождествлении функций, отличающихся лишь на множестве нулевой меры), причем D(g, f)+D(f,h)=D(g,h) тогда и только тогда, когда f=g,f=h или f=M(g,h).

Доказательство. Обратимся к определению метрики. Для рассматриваемой функции непосредственно очевидна справедливость условий неотрицательности и симметричности. Очевидна и эквивалентность условия D(g,h)=0 равенству g=h. Остается доказать неравенство треугольника и установить, когда оно обращается в равенство.

Без ограничения общности можно считать, что рассматриваемые расстояния задаются верхней строкой формулы (8) и кроме того,

R=\int M(g,f)d\mu-\int M(f,h)d\mu\geq 0

(частные случаи с использованием нижней строки формулы (8) рассматриваются элементарно, а справедливости последнего неравенства можно добиться заменой обозначений функций - элементов пространства L(E,\mu) ). Тогда

D(g,f)+D(f,h)\geq \frac{\int(|g-f|+|f-h|)d\mu}{\int M(g,f)d\mu}, ( 9)

причем равенство имеет место тогда и только тогда, когда R=0 или f=h. Положим

P=\int(|g-f|+|f-h|-|g-h|)d\mu,Q=\int(M(g,f)-M(g,h))d\mu.

Ясно, что P\geq 0 и

\frac{\int(|g-f|+|f-h|)d\mu}{\int M(g,f)d\mu}=\frac{\int|g-h|d\mu+P}{\int M(g,h)d\mu+Q}. ( 10)

Если Q < 0, то очевидно, что неравенство треугольника выполнено, причем неравенство является строгим. Рассмотрим случай Q > 0.

Воспользуемся следующим элементарным фактом: если y \geq x, y > 0, P > Q > 0, то

\frac{x+P}{y+Q}>\frac{x}{y}. ( 11)

Из соотношений (10) и (11) вытекает, что для доказательства неравенства треугольника достаточно показать, что P–Q>0.

Рассмотрим

k={|g–f|+|f–h|–|g–h|}–M(g,f)+M(g,h).

Применяя равенство (M(g,h)–g)+(M(g,h)–h)=|g–h| к слагаемым, заключенным в фигурные скобки, получаем, что

k=M(f,h)+[M(g,f)+M(f,h)–M(g,h)–2f].

Применяя соотношение

M(g,h)=g+h–m(g,h) ( 12)

к слагаемым, заключенным в квадратные скобки, получаем, что

k=M(f,h)–m(f,h)–m(g,f)+m(g,h).

Так как M(f,h)–m(f,h)=|f–h|, то

k=|f–h|–(m(g,f)–m(g,h))\geq (f–h)–(m(g,f)–m(g,h)). ( 13)

В соответствии с (12) правая часть (13) есть M(g,f)–M(g,h), а потому

P–Q=\int k d\mu\geq Q > 0,

что завершает доказательство для случая Q>0. При этом неравенство треугольника является строгим.

Осталось рассмотреть случай Q = 0. В силу соотношений (9) и (10) неравенство треугольника выполнено. Когда оно обращается в равенство? Тривиальные случаи: f=g или f=h. Если же f отлично от g и h, то необходимо, чтобы R=0 и P=0. Как легко проверить, последнее условие эквивалентно неравенствам

m(g,h) \leq f \leq M(g,h). ( 14)

Из правого неравенства в (14) следует, что M(g,f)\leq M(g,M(g,h))= M(g,h). Так как Q=0, то M(g,f)=M(g,h). Аналогичным образом из соотношений

M(h,f)\leq M(h,M(g,h))=M(g,h)=M(g,f)

и R=0 следует, что M(f,h)=M(g,h).

Рассмотрим измеримое множество X=\{x\in E:h(x)<g(x)\}. Тогда M(g,h)(x)=M(f,h)(x)=g(x)>h(x), т.е. h(x)<f(x)=M(g,h)(x) для почти всех x\in X. Для почти всех y\in\{x\in E:h(x)>g(x)\} точно так же получаем f(y)=M(g,h)(y). Для почти всех z\in\{x\in E:h(x)=g(x)\} в силу (14) f(z)=M(g,h)(z), что и завершает доказательство теоремы.

Замечание. Назовем функции g и h подобными, если существует число b>0 такое, что g=bh. Тогда при 0<b\leq 1 имеем D(g,h)=1–b, т.е. расстояние между подобными функциями линейно зависит от коэффициента подобия. Далее, пусть a>0, тогда D(ag,ah)=D(g,h). Таким образом, метрика (8) инвариантна по отношению к преобразованиям подобия, которые образуют группу допустимых преобразований в шкале отношений. Это дает основания именовать метрику (8) метрикой подобия [ [ 1.18 ] ].

Контрольные вопросы и задачи

  1. Приведите примеры практического использования количественных и категоризованных данных.
  2. Как соотносятся группы допустимых преобразований для различных шкал измерения?
  3. Почему анализ нечисловых данных занимает одно из центральных мест в прикладной статистике?
  4. В каких случаях целесообразно применение нечетких множеств?
  5. Справедливо ли для нечетких множеств равенство (A+B)C=AC+BC? А равенство (AB)C=(AC)(BC)?
  6. Докажите, что для блочного расстояния (пример 4 из п.1.5) справедливо неравенство треугольника.
  7. Расскажите о многообразии расстояний в различных пространствах статистических данных.
  8. Докажите, что если d(x,y) - расстояние в некотором пространстве, то \sart{d(x,y)} - также расстояние в этом пространстве.

Темы докладов, рефератов, исследовательских работ

  1. Содержание первого сочинения по прикладной статистике - книги "Числа" в Библии.
  2. Свойства основных шкал измерения.
  3. Взаимосвязи различных классов объектов нечисловой природы между собой.
  4. Опишите с помощью нечеткого подмножества временной шкалы понятие "молодой человек" (на основе опроса 10–20 экспертов).
  5. Опишите с помощью теории нечеткости понятие "куча зерен" (на основе опроса 10–20 экспертов).
  6. Центральная роль статистики объектов произвольной природы в прикладной статистике.
  7. Расстояния в пространствах функций.
  8. Докажите, что аксиоматически введенный в п.1.6 показатель различия между множествами d(A,B)=\mu(А\Delta В) удовлетворяет неравенству треугольника.
Лекция 1: 123456789 || Лекция 2 >