Здравствуйте! 4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1. Сегодня вижу, что я вне курса! Почему так произошло? |
Статистика интервальных данных
12.4. Линейный регрессионный анализ интервальных данных
Перейдем к многомерному статистическому анализу. Сначала с позиций асимптотической математической статистики интервальных данных рассмотрим оценки метода наименьших квадратов (МНК).
Статистическое исследование зависимостей - одна из наиболее важных задач, которые возникают в различных областях науки и техники. Под словами "исследование зависимостей" имеется в виду выявление и описание существующей связи между исследуемыми переменными на основании результатов статистических наблюдений. К методам исследования зависимостей относятся регрессионный анализ, многомерное шкалирование, идентификация параметров динамических объектов, факторный анализ, дисперсионный анализ, корреляционный анализ и др. Однако многие реальные ситуации характеризуются наличием данных интервального типа, причем известны допустимые границы погрешностей (например, из технических паспортов средств измерения).
Если какая-либо группа объектов характеризуется переменными и проведен эксперимент, состоящий из опытов, где в каждом опыте эти переменные измеряются один раз, то экспериментатор получает набор чисел: .
Однако процесс измерения, какой бы физической природы он ни был, обычно не дает однозначный результат. Реально результатом измерения какой-либо величины являются два числа: - нижняя граница и - верхняя граница. Причем , где - истинное значение измеряемой величины. Результат измерения можно записать как . Интервальное число может быть представлено другим способом, а именно, , где . Здесь - центр интервала (как правило, не совпадающий с ), а - максимально возможная погрешность измерения.
Метод наименьших квадратов для интервальных данных. Пусть математическая модель задана следующим образом:
где - вектор влияющих переменных (факторов), поддающихся измерению; - вектор оцениваемых параметров модели; - отклик модели (скаляр); - скалярная функция векторов и ; наконец, - случайная ошибка (невязка, погрешность).Пусть проведено опытов, причем в каждом опыте измерены (один раз) значения отклика и вектора факторов . Результаты измерений могут быть представлены в следующем виде:
где - матрица значений измеренного вектора в опытах; - вектор значений измеренного отклика в опытах; - вектор случайных ошибок. Тогда выполняется матричное соотношение: где , причем - -мерные вектора, которые составляют матрицу .Введем меру близости между векторами и . В МНК в качестве берется квадратичная форма взвешенных квадратов невязок , т.е.
где - матрица весов, не зависящая от . Тогда в качестве оценки можно выбрать такое , при котором мера близости принимает минимальное значение, т.е.В общем случае решение этой экстремальной задачи может быть не единственным. Поэтому в дальнейшем будем иметь в виду одно из этих решений. Оно может быть выражено в виде , где , причем непрерывны и дифференцируемы по , где - область определения функции . Эти свойства функции дают возможность использовать подходы статистики интервальных данных.
Преимущество метода наименьших квадратов заключается в сравнительной простоте и универсальности вычислительных процедур. Однако не всегда оценка МНК является состоятельной (при функции , не являющейся линейной по векторному параметру b), что ограничивает его применение на практике.
Важным частным случаем является линейный МНК, когда есть линейная функция от :
где, возможно, , а - свободный член линейной комбинации. Как известно, в этом случае МНК-оценка имеет вид:Если матрица не вырождена, то эта оценка является единственной. Если матрица весов единичная, то
Пусть выполняются следующие предположения относительно распределения ошибок :
- ошибки имеют нулевые математические ожидания ;
- результаты наблюдений имеют одинаковую дисперсию ;
- ошибки наблюдений некоррелированы, т.е. cov\{\varepsilon_i,\varepsilon_j} = 0.
Тогда, как известно, оценки МНК являются наилучшими линейными оценками, т.е. состоятельными и несмещенными оценками, которые представляют собой линейные функции результатов наблюдений и обладают минимальными дисперсиями среди множества всех линейных несмещенных оценок. Далее именно этот наиболее практически важный частный случай рассмотрим более подробно.
Как и в других постановках асимптотической математической статистики интервальных данных, при использовании МНК измеренные величины отличаются от истинных значений из-за наличия погрешностей измерения. Запишем истинные данные в следующей форме:
где - индекс, указывающий на то, что значение истинное. Истинные и измеренные данные связаны следующим образом: где . Предположим, что погрешности измерения отвечают граничным условиям( 48) |
Пусть множество возможных значений входит в - область определения функции . Рассмотрим - оценку МНК, рассчитанную по истинным значениям факторов и отклика, и - оценку МНК, найденную по искаженным погрешностями данным. Тогда
Ввести понятие нотны придется несколько иначе, чем это было сделано выше, поскольку оценивается не одномерный параметр, а вектор. Положим:
Будем называть - нижней нотной, а - верхней нотной. Предположим, что при безграничном возрастании числа измерений , т.е. при , векторы стремятся к постоянным значениям соответственно. Тогда будем называть нижней асимптотической нотной, а - верхней асимптотической нотной.
Рассмотрим доверительное множество для вектора параметров , т.е. замкнутое связное множество точек в -мерном евклидовом пространстве такое, что где - доверительная вероятность, соответствующая . Другими словами, есть область рассеивания (аналог эллипсоида рассеивания) случайного вектора с доверительной вероятностью и числом опытов .
Из определения верхней и нижней нотн следует, что всегда .. В соответствии с определением нижней асимптотической нотны и верхней асимптотической нотны можно считать, что . при достаточно большом числе наблюдений . Этот многомерный интервал описывает -мерный гиперпараллелепипед .
Каким-либо образом разобьем на гиперпараллелепипедов. Пусть - внутренняя точка -го гиперпараллелепипеда. Учитывая свойства доверительного множества и устремляя к бесконечности, можно утверждать, что где
Таким образом, множество характеризует неопределенность при оценивании вектора параметров . Его можно назвать доверительным множеством в статистике интервальных данных.
Введем некоторую меру , характеризующую "величину" множества . По определению меры она удовлетворяет условию: если и , то . Примерами такой меры являются площадь для и объем для . Тогда:
( 49) |
( 50) |
Метод наименьших квадратов для линейной модели. Рассмотрим наиболее важный для практики частный случай МНК, когда модель описывается линейным уравнением (см. выше).
Для простоты описания преобразований пронормируем переменные . следующим образом:
гдеТогда
В дальнейшем изложении будем считать, что рассматриваемые переменные пронормированы описанным образом, и верхние индексы 0 опустим. Для облегчения демонстрации основных идей примем достаточно естественные предположения.
1. Для рассматриваемых переменных существуют следующие пределы:
2. Количество опытов n таково, что можно пользоваться асимптотическими результатами, полученными при .
3. Погрешности измерения удовлетворяют одному из следующих типов ограничений:
тип 1. Абсолютные погрешности измерения ограничены согласно (48);
. Относительные погрешности измерения ограничены:
тип 3. Ограничения наложены на сумму погрешностей:
(поскольку все переменные отнормированы, т.е. представляют собой относительные величины, то различие в размерности исходных переменных не влияет на возможность сложения погрешностей).Перейдем к вычислению нотны оценки МНК. Справедливо равенство:
Воспользуемся следующей теоремой из теории матриц [ [ 12.10 ] ].
Теорема. Если функция разлагается в степенной ряд в круге сходимости , т.е.
то это разложение сохраняет силу, если скалярный аргумент заменить любой матрицей , характеристические числа которой , лежат внутри круга сходимости.Из этой теоремы вытекает, что:
Легко убедиться, что:
Это вытекает из последовательности равенств:
Применим приведенную выше теорему из теории матриц, полагая и принимая, что собственные числа этой матрицы удовлетворяют неравенству . Тогда получим:
Подставив последнее соотношение в заключение упомянутой теоремы, получим:
Для дальнейшего анализа понадобится вспомогательное утверждение. Исходя из предположений 1-3, докажем, что:
Доказательство. Справедливо равенство где - состоятельные и несмещенные оценки дисперсий и коэффициентов ковариации. Следовательно, тогда гдеДругими словами, каждый элемент матрицы, обозначенной как , есть бесконечно малая величина порядка . Для рассматриваемого случая , поэтому
Предположим, что достаточно велико и можно считать, что собственные числа матрицы меньше единицы по модулю, тогда
что и требовалось доказать.Подставим доказанное асимптотическое соотношение в формулу для приращения , получим
Перейдем от матричной к скалярной форме, опуская индекс (R):
Будем искать по и . Для этого рассмотрим все три ранее введенных типа ограничений на ошибки измерения.
Тип 1 (абсолютные погрешности измерения ограничены). Тогда:
Тип 2 (относительные погрешности измерения ограничены). Аналогично получим:
Тип З (ограничения наложены на сумму погрешностей). Предположим, что достигает максимального значения при таких значениях погрешностей и , которые мы обозначим как:
тогда:Ввиду линейности последнего выражения и выполнения ограничения типа 3:
Для простоты записей выкладок сделаем следующие замены:
Теперь для достижения поставленной цели можно сформулировать следующую задачу, которая разделяется на типовых задач оптимизации:
где при ограниченияхПерепишем минимизируемые функции в следующем виде:
Очевидно, что .
Легко видеть, что
Следовательно, необходимо решить задач
при ограничениях "типа равенства":Сформулирована типовая задача поиска экстремума функции. Она легко решается. Поскольку
то максимальное отклонение МНК-оценки k-ого параметра равноКроме рассмотренных выше трех видов ограничений на погрешности могут представлять интерес и другие, но для демонстрации типовых результатов ограничимся только этими тремя видами.
Оценивание линейной корреляционной связи. В качестве примера рассмотрим оценивание линейной корреляционной связи случайных величин и с нулевыми математическими ожиданиями. Пусть эта связь описывается соотношением:
где - постоянные, а случайная величина некоррелирована с . Допустим, необходимо оценить неизвестные параметры по серии независимых испытаний:Здесь при каждом имеем новую независимую реализацию рассматриваемых случайных величин. В этой частной схеме оценки наименьших квадратов параметров являются, как известно, состоятельными [ [ 12.41 ] ].
Пусть величины в дополнение к попарной независимости имеют единичные дисперсии. Тогда из закона больших чисел [ [ 12.41 ] ] следует существование следующих пределов (ср. предположение 1 выше):
где - среднее квадратическое отклонение случайной величины .Пусть измерения производятся с погрешностями, удовлетворяющими ограничениям типа 1, тогда максимальное приращение величины , как показано выше, равно:
Перейдем к предельному случаю и выпишем выражение для нотны:
В качестве примера рассмотрим случай . Тогда
Приведенное выше выражение для максимального приращения метрологической погрешности не может быть использовано в случае . Для выведем выражение для нотны, исходя из соотношения:
Подставив , получим:
Следовательно, нотна выглядит так: