НОУ ИНТУИТ | Прикладная статистика. Лекция 12: Статистика интервальных данных

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 4113 / 1048 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00

Темы: Математика, Экономика

Специальности: Экономист

|

Вам нравится? Нравится 61 студенту

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Аннотация: В лекции рассказывается об основных идеях статистики интервальных данных, их применении в задачах оценивания характеристик и параметров распределения и проверки гипотез. Описываются интервальные регрессионный, кластерный и дискриминантный анализ.

Ключевые слова: статистика, интервал, принятия решений, робастность, ПО, приложение, множества, испытание, значение, реальное значение, погрешность, операции, разность, Произведение, математика, коэффициенты, объем выборки, коэффициент вариации, оценка максимального правдоподобия, кластерный анализ, регрессионный анализ, выборка, анализ, запись, вероятность, функция, производные, приращение функции, выражение, максимум, минимум, Абсолютной погрешностью, Относительной погрешностью, константы, математическим ожиданием, доверительная вероятность, доверительный интервал, длина, точность, Квантиль, информация, нормальное распределение, дисперсия, случайная величина, отношение, выборочной средней, оценивание, медиана, дискретное распределение, случайная выборка, гипотеза, параметр, параметризация, делимое, неравенство Чебышева, числитель, погрешности вычислений, линеаризация, связь, неравенство, Дополнение, мощность критерия, тождество, пространство, мера, теорема Ферма, многочлен, доказательство, ссылка, линейная форма, вывод, статистическая гипотеза, значения порогов, эмпирическая функция, программные средства, метода наименьших квадратов, идентификация, динамические объекты, факторный анализ, дисперсионный анализ, группа, однозначность результата, нижняя граница, верхняя граница, математическая модель, вектор, невязка, матрица, Матрица весов, область определения, свободными членами, индекс, постоянное значение, евклидово пространство, площадь, равенство, степенные ряды, аргумент, собственное число, бесконечно малая величина, тип ограничения, Типовая, экстремум функции, Приращение, интеграл, обратная функция, определение, линейная модель, множитель, коэффициент корреляции, критерий оптимальности, компонент, место, объект, обучающая выборка, плоскость, целый, статистический анализ, кластер, разбиение, евклидово расстояние, закон больших чисел, расстояние, MIN, диаметр, квантование, дендрограмма, радиус, net, текущая стоимость, внутренняя норма доходности, срок окупаемости, прибыль, project, expert, ТЭО, процентная ставка, доходность, процент, плата, расходы, срок окупаемости проектов, поток, устойчивость, NPV, очередь

В статистике интервальных данных элементы выборки - не числа, а интервалы. Это приводит к алгоритмам и выводам, принципиально отличающимся от классических. Настоящая глава посвящена основным идеям и подходам асимптотической статистики интервальных данных. Приведены результаты, связанные с основополагающими в рассматриваемой области прикладной математической статистики понятиями нотны и рационального объема выборки. Рассмотрен ряд задач оценивания характеристик и параметров распределения, проверки гипотез, регрессионного, кластерного и дискриминантного анализа.

12.1. Основные идеи статистики интервальных данных

Перспективная и быстро развивающаяся область статистических исследований последних лет - математическая статистика интервальных данных. Речь идет о развитии методов прикладной математической статистики в ситуации, когда статистические данные - не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин. Полученные результаты отражены, в частности, в материалах дискуссии, проведенной журналом "Заводская лаборатория" [ [ 12.14 ] ] и в докладах международной конференции "Интервал-92" [ [ 12.42 ] ]. Приведем основные идеи весьма перспективного для вероятностно-статистических методов и моделей принятия решений асимптотического направления в статистике интервальных данных.

В настоящее время признается необходимым изучение устойчивости (робастности) оценок параметров к малым отклонениям исходных данных и предпосылок модели. Однако популярная среди теоретиков модель засорения (Тьюки-Хьюбера) представляется не вполне адекватной. Эта модель нацелена на изучение влияния больших "выбросов". Поскольку любые реальные измерения лежат в некотором фиксированном диапазоне, а именно, заданном в техническом паспорте средства измерения, то зачастую выбросы не могут быть слишком большими. Поэтому представляются полезными иные, более общие схемы устойчивости, в частности, введенные в [ [ 1.15 ] ], в которых, например, учитываются отклонения распределений результатов наблюдений от предположений модели.

В одной из таких схем изучается влияние интервальности исходных данных на статистические выводы. Необходимость такого изучения была вызвана следующими обстоятельствами. В государственные стандарты СССР по прикладной статистике в обязательном порядке включалось справочное приложение "Примеры применения правил стандарта". При разработке ГОСТ 11.011-83 [ [ 12.12 ] ] были переданы для анализа реальные данные о наработке резцов до предельного состояния (в часах). Оказалось, что все эти данные представляли собой либо целые числа, либо полуцелые (т.е. после умножения на 2 становящиеся целыми). Ясно, что исходная длительность наработок искажена. Необходимо учесть в статистических процедурах наличие такого искажения исходных данных. Как это сделать?

Первое, что приходит в голову - модель группировки данных, согласно которой для истинного значения проводится замена на ближайшее число из множества $\{0,5n, n=1,2,3,...\}$ . Однако эту модель целесообразно подвергнуть сомнению, а также рассмотреть иные модели. Так, возможно, что надо приводить к ближайшему сверху элементу указанного множества - если проверка качества поставленных на испытание резцов проводилась раз в полчаса. Другой вариант: если расстояния от до двух ближайших элементов множества $\{0,5n, n=1,2,3,...\}$ примерно равны, то естественно ввести рандомизацию при выборе заменяющего числа, и т.д.

Целесообразно построить новую математико-статистическую модель, согласно которой результаты наблюдений - не числа, а интервалы. Например, если в таблице приведено значение 53,5, то это значит, что реальное значение - какое-то число от 53,0 до 54,0, т.е. какое-то число в интервале [53,5 - 0,5; 53,5 + 0,5], где 0,5 - максимально возможная погрешность. Принимая эту модель, мы попадаем в новую научную область - статистику интервальных данных [ [ 12.32 ] ]. Статистика интервальных данных идейно связана с интервальной математикой, в которой в роли чисел выступают интервалы (см., например, монографию [ [ 12.46 ] ]). Это направление математики является дальнейшим развитием всем известных правил приближенных вычислений, посвященных выражению погрешностей суммы, разности, произведения, частного через погрешности тех чисел, над которыми осуществляются перечисленные операции.

В интервальной математике сумма двух интервальных чисел [a,b] и [c,d] имеет вид [a,b] + [c,d] = [a+c, b+d] , а разность определяется по формуле [a,b] - [c,d] = [a-d, b-c] . Для положительных a, b, c, d произведение определяется формулой [a,b] * [c,d] = [ac, bd] , а частное имеет вид [a,b] / [c,d] = [a/d, b/c] . Эти формулы получены при решении соответствующих оптимизационных задач. Пусть лежит в отрезке [a,b] , а - в отрезке [c,d] . Каково минимальное и максимальное значение для x+y ? Очевидно, a+c и b+d соответственно. Минимальные и максимальные значения для x-y, xy, x/y указывают нижние и верхние границы для интервальных чисел, задающих результаты арифметических операций. А от арифметических операций можно перейти ко всем остальным математическим алгоритмам. Так строится интервальная математика.

Как видно из сборника трудов Международной конференции [ [ 12.42 ] ], исследователям удалось решить, в частности, ряд задач теории интервальных дифференциальных уравнений, в которых коэффициенты, начальные условия и решения описываются с помощью интервалов. По мнению ряда специалистов, статистика интервальных данных является частью интервальной математики [ [ 12.46 ] ]. Впрочем, есть точка зрения, согласно которой такое включение нецелесообразно, поскольку статистика интервальных данных использует несколько иные подходы к алгоритмам анализа реальных данных, чем сложившиеся в интервальной математике (подробнее см. ниже).

В настоящей лекции развиваем асимптотические методы статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. В частности, еще в начале 1980-х годов с помощью такой асимптотики были сформулированы правила выбора метода оценивания в ГОСТ 11.011-83 [ [ 12.12 ] ].

Разработана [ [ 12.27 ] ] общая схема исследования, включающая расчет нотны (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и рационального объема выборки (превышение которого не дает существенного повышения точности оценивания). Она применена к оцениванию математического ожидания и дисперсии [ [ 12.14 ] ], медианы и коэффициента вариации [ [ 12.28 ] ], параметров гамма-распределения [ [ 12.12 ] , [ 12.26 ] ] и характеристик аддитивных статистик [ [ 12.27 ] ], при проверке гипотез о параметрах нормального распределения, в том числе с помощью критерия Стьюдента, а также гипотезы однородности с помощью критерия Смирнова [ [ 12.28 ] ]. Изучено асимптотическое поведение оценок метода моментов и оценок максимального правдоподобия (а также более общих - оценок минимального контраста), проведено асимптотическое сравнение этих методов в случае интервальных данных, найдены общие условия, при которых, в отличие от классической математической статистики, метод моментов дает более точные оценки, чем метод максимального правдоподобия [ [ 12.33 ] ].

Разработаны подходы к использованию интервальных данных в основных постановках регрессионного, дискриминантного и кластерного анализов [ [ 12.31 ] ]. В частности, изучено влияние погрешностей измерений и наблюдений на свойства алгоритмов регрессионного анализа, разработаны способы расчета нотн и рациональных объемов выборок, введены и исследованы новые понятия многомерных и асимптотических нотн, доказаны соответствующие предельные теоремы [ [ 12.1 ] , [ 12.31 ] ]. Начата разработка интервального дискриминантного анализа, в частности, рассмотрено влияние интервальности данных на показатель качества классификации [ [ 12.31 ] , [ 2.18 ] ]. Основные идеи и результаты рассматриваемого направления в статистике интервальных данных приведены в публикациях обзорного характера [ [ 12.32 ] ].

Как показала, в частности, международная конференция "Интервал-92", в области асимптотической математической статистики интервальных данных мы имеем мировой приоритет. По нашему мнению, со временем во все виды статистического программного обеспечения должны быть включены алгоритмы интервальной статистики, "параллельные" обычно используемым алгоритмам прикладной математической статистики. Это позволит в явном виде учесть наличие погрешностей у результатов наблюдений, сблизить позиции метрологов и статистиков.

Многие из утверждений статистики интервальных данных весьма отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок; средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии оценки, рассчитанной согласно классической теории, и некоторого положительного числа (равного квадрату так называемой нотны - максимально возможного отклонения значения статистики из-за погрешностей исходных данных) - в результате метод моментов оказывается иногда точнее метода максимального правдоподобия [ [ 12.33 ] ]; нецелесообразно увеличивать объем выборки сверх некоторого предела (называемого рациональным объемом выборки) - вопреки классической теории, согласно которой чем больше объем выборки, тем точнее выводы.

В стандарт [ [ 12.12 ] ] был включен раздел 5, посвященный выбору метода оценивания при неизвестных параметрах формы и масштаба и известном параметре сдвига и основанный на концепциях статистики интервальных данных. Теоретическое обоснование этого раздела стандарта опубликовано лишь через 5 лет в статье [ [ 12.26 ] ].

Следует отметить, что хотя в 1982 г. при разработке стандарта [ [ 12.12 ] ] были сформулированы основные идеи статистики интервальных данных, однако из-за недостатка времени они не были полностью реализованы в ГОСТ 11.011-83, и этот стандарт написан в основном в классической манере. Развитие идей статистики интервальных данных продолжается уже в течение 20 лет, и еще многое необходимо сделать! Большое значение статистики интервальных данных для современной прикладной статистики обосновано в [ [ 12.29 ] , [ 12.36 ] ].

Ведущая научная школа в области статистики интервальных данных - это школа проф. А.П. Вощинина, активно работающая с конца 70-х годов. Полученные результаты отражены в ряде монографий (см., в частности, [ [ 12.5 ] , [ 12.6 ] , [ 12.7 ] ]), статей [ [ 12.8 ] , [ 12.9 ] , [ 12.14 ] ], докладов, в частности, в трудах [ [ 12.42 ] ] Международной конференции ИНТЕРВАЛ-92, диссертаций [ [ 12.15 ] , [ 12.43 ] ]. В частности, изучены проблемы регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности. Рассматриваемое ниже направление отличается нацеленностью на асимптотические результаты, полученные при больших объемах выборок и малых погрешностях измерений, поэтому оно и названо асимптотической статистикой интервальных данных.

Сформулируем сначала основные идеи асимптотической математической статистики интервальных данных, а затем рассмотрим реализацию этих идей на перечисленных выше примерах. Следует сразу подчеркнуть, что основные идеи достаточно просты, в то время как их проработка в конкретных ситуациях зачастую оказывается достаточно трудоемкой.

Пусть существо реального явления описывается выборкой x_1 , x_2 , ..., x_n . В вероятностной теории математической статистики, из которой мы исходим (см. терминологическую статью [ [ 2.15 ] ]), выборка - это набор независимых в совокупности одинаково распределенных случайных величин. Однако беспристрастный и тщательный анализ подавляющего большинства реальных задач показывает, что статистику известна отнюдь не выборка x_1 , x_2 , ..., x_n , а величины

$y_j = x_j + \varepsilon_j, j = 1, 2, ... , n,$

где $\varepsilon_1,\varepsilon_2,...,\varepsilon_n$ - некоторые погрешности измерений, наблюдений, анализов, опытов, исследований (например, инструментальные ошибки).

Одна из причин появления погрешностей - запись результатов наблюдений с конечным числом значащих цифр. Дело в том, что для случайных величин с непрерывными функциями распределения событие, состоящее в попадании хотя бы одного элемента выборки в множество рациональных чисел, согласно правилам теории вероятностей имеет вероятность 0, а такими событиями в теории вероятностей принято пренебрегать. Поэтому при рассуждениях о выборках из нормального, логарифмически нормального, экспоненциального, равномерного, гамма - распределений, распределения Вейбулла-Гнеденко и др. приходится принимать, что эти распределения имеют элементы исходной выборки x_1, x_2 , ..., x_n , в то время как статистической обработке доступны лишь искаженные значения $y_j = x_j + \varepsilon_j$ .

Введем обозначения

$x=(x_1,x_2,...,x_n),y=(y_1,y_2,...,y_n),\varepsilon=(\varepsilon_1,\varepsilon_2,...,\varepsilon_n).$

Пусть статистические выводы основываются на статистике $f:R^n\rightarrow R^1$ , используемой для оценивания параметров и характеристик распределения, проверки гипотез и решения иных статистических задач. Принципиально важная для статистики интервальных данных идея такова: СТАТИСТИК ЗНАЕТ ТОЛЬКО f(y) , НО НЕ f(x) .

Очевидно, в статистических выводах необходимо отразить различие между f(y) и f(x) . Одним из двух основных понятий статистики интервальных данных является понятие нотны.

Определение. Величину максимально возможного (по абсолютной величине) отклонения, вызванного погрешностями наблюдений $\varepsilon$ , известного статистику значения f(y) от истинного значения f(x) , т.е.

$Nf(x)=\sup|f(y)-f(x)|,$

где супремум берется по множеству возможных значений вектора погрешностей $\varepsilon$ (см. ниже), будем называть НОТНОЙ.

Если функция имеет частные производные второго порядка, а ограничения на погрешности имеют вид

$|\varepsilon_i|\le\Delta,i=1,2,...,n,$

( 1)

причем $\Delta$ мало, то приращение функции

с точностью до бесконечно малых более высокого порядка описывается главным линейным членом, т.е.

$f(y)-f(x)=\sum_{1\le i\le n}\frac{\partial f(x)}{\partial x_i}\varepsilon_i+O(\Delta^2).$

Чтобы получить асимптотическое (при $\Delta\rightarrow 0$ ) выражение для нотны, достаточно найти максимум и минимум линейной функции (главного линейного члена) на кубе, заданном неравенствами (1). Легко видеть, что максимум достигается, если положить

$\varepsilon_i= \left\{ \begin{aligned} &\Delta,&\frac{\partial f(x)}{\partial x_i}\ge 0, \\ &-\Delta,&\frac{\partial f(x)}{\partial x_i}< 0, \end{aligned} \right.$

а минимум, отличающийся от максимума только знаком, достигается при $\varepsilon'_i=-\varepsilon_i$ . Следовательно, нотна с точностью до бесконечно малых более высокого порядка имеет вид

$N_f(x)=\left(\sum_{1\le i\le n}\left|\frac{\partial f(x)}{\partial x_i}\right|\right)\Delta.$

Это выражение назовем асимптотической нотной.

Условие (1) означает, что исходные данные представляются статистику в виде интервалов $\left[y_i-\Delta;y_i+\Delta\right], i=1,2,...,n$ (отсюда и название этого научного направления). Ограничения на погрешности могут задаваться разными способами - кроме абсолютных ошибок используются относительные или иные показатели различия между и .

Если задана не предельная абсолютная погрешность $\Delta$ , а предельная относительная погрешность $\delta$ , т.е. ограничения на погрешности вошедших в выборку результатов измерений имеют вид

$|\varepsilon_i|\le\delta|x_i|, i=1,2,...,n,$

то аналогичным образом получаем, что нотна с точностью до бесконечно малых более высокого порядка, т.е. асимптотическая нотна, имеет вид

$N_f(x)=\left(\sum_{1\le i\le n}\left|x_i\frac{\partial f(x)}{\partial x_i}\right|\right)\delta.$

При практическом использовании рассматриваемой концепции необходимо провести тотальную замену символов на символы . В каждом конкретном случае удается показать, что в силу малости погрешностей разность N_f(y)-N_f(x) является бесконечно малой более высокого порядка сравнительно с N_f(x) или N_f(y) .

Основные результаты в вероятностной модели. В классической вероятностной модели элементы исходной выборки x_1,x_2,...,x_n рассматриваются как независимые одинаково распределенные случайные величины. Как правило, существует некоторая константа C > 0 такая, что в смысле сходимости по вероятности

$\lim_{n\rightarrow\infty}N_f(x)=C\Delta.$

( 2)

Соотношение (2) доказывается отдельно для каждой конкретной задачи.

При использовании классических эконометрических методов в большинстве случаев используемая статистика f(x) является асимптотически нормальной. Это означает, что существуют константы и $\sigma^2$ такие, что

$\lim_{n\rightarrow\infty}P\left(\sqrt{n}\frac{f(x)-a}{\sigma}<x\right)=\Phi(x),$

где $\Phi(x)$ - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. При этом обычно оказывается, что

$\lim_{n\rightarrow\infty}\sqrt{n}(Mf(x)-a)=0\text{ и }\lim_{n\rightarrow\infty}nDf(x)=\sigma^2,$

а потому в классической математической статистике средний квадрат ошибки статистической оценки равен

$M(f(x)-a)^2=(Mf(x)-a)^2+Df(x)=\frac{\sigma^2}{n}$

с точностью до членов более высокого порядка.

В статистике интервальных данных ситуация совсем иная - обычно можно доказать, что средний квадрат ошибки равен

$\max_{\{\varepsilon\}}M(f(y)-a)^2=\frac{\sigma^2}{n}+N_f^2(y)+o\left(\Delta^2+\frac{1}{n}\right).$

( 3)

Из соотношения (3) вытекает ряд важных следствий. Прежде всего отметим, что правая часть этого равенства, в отличие от правой части соответствующего классического равенства, не стремится к 0 при безграничном возрастании объема выборки. Она остается больше некоторого положительного числа, а именно, квадрата нотны. Следовательно, статистика f(x) не является состоятельной оценкой параметра . Более того, состоятельных оценок вообще не существует.

Пусть доверительным интервалом для параметра , соответствующим заданной доверительной вероятности $\gamma$ , в классической математической статистике является интервал $(c_n(\gamma);d_n(\gamma))$ . В статистике интервальных данных аналогичный доверительный интервал является более широким. Он имеет вид $(c_n(\gamma)-N_f(y);d_n(\gamma)+N_f(y))$ . Таким образом, его длина увеличивается на две нотны. Следовательно, при увеличении объема выборки длина доверительного интервала не может стать меньше, чем $2C\Delta$ (см. формулу (2)).

В статистике интервальных данных методы оценивания параметров имеют другие свойства по сравнению с классической математической статистикой. Так, при больших объемах выборок метод моментов может быть заметно лучше, чем метод максимального правдоподобия (т.е. иметь меньший средний квадрат ошибки - см. формулу (3)), в то время как в классической математической статистике второй из названных методов всегда не хуже первого.

Рациональный объем выборки. Анализ формулы (3) показывает, что в отличие от классической математической статистики нецелесообразно безгранично увеличивать объем выборки, поскольку средний квадрат ошибки остается всегда большим квадрата нотны. Поэтому представляется полезным ввести понятие "рационального объема выборки" $n_{rat}$ , при достижении которого продолжать наблюдения нецелесообразно.

Как установить "рациональный объем выборки"? Можно воспользоваться идеей "принципа уравнивания погрешностей", выдвинутой в монографии [ [ 1.15 ] ]. Речь идет о том, что вклад погрешностей различной природы в общую погрешность должен быть примерно одинаков. Этот принцип дает возможность выбирать необходимую точность оценивания тех или иных характеристик в тех случаях, когда это зависит от исследователя (см. 4.7). В статистике интервальных данных в соответствии с "принципом уравнивания погрешностей" предлагается определять рациональный объем выборки $n_{rat}$ из условия равенства двух величин - метрологической составляющей, связанной с нотной, и статистической составляющей - в среднем квадрате ошибки (3), т.е. из условия

$\frac{\sigma^2}{n_{rat}}=N_f^2(y),\;n_{rat}=\frac{\sigma^2}{N_f^2(y)}.$

Для практического использования выражения для рационального объема выборки неизвестные теоретические характеристики необходимо заменить их оценками. Это делается в каждой конкретной задаче по-своему.

Исследовательскую программу в области статистики интервальных данных можно "в двух словах" сформулировать так: для любого алгоритма анализа данных (алгоритма прикладной статистики) необходимо вычислить нотну и рациональный объем выборки, или иные величины из того же понятийного ряда, возникающие в многомерном случае, при наличии нескольких выборок и при иных обобщениях описываемой здесь простейшей схемы. Затем проследить влияние погрешностей исходных данных на точность оценивания, доверительные интервалы, значения статистик критериев при проверке гипотез, уровни значимости и другие характеристики статистических выводов. Очевидно, классическая математическая статистика является частью статистики интервальных данных, выделяемой условием $\Delta = 0$ .

Дальше >>

Авторизоваться

Прикладная статистика

Статистика интервальных данных

12.1. Основные идеи статистики интервальных данных

Вопросы и ответы