Здравствуйте! 4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1. Сегодня вижу, что я вне курса! Почему так произошло? |
Статистика интервальных данных
Для нахождения рационального объема выборки необходимо сделать следующее.
Этап 1. Выразить зависимость размеров и меры области рассеивания от числа опытов (см. выше).
Этап 2. Ввести меру неопределенности и записать соотношение между статистической и интервальной неопределенностями.
Этап 3. По результатам этапов 1 и 2 получить выражение для рационального объема выборки.
Для выполнения этапа 1 определим область рассеивания следующим образом. Пусть доверительным множеством является -мерный куб со сторонами длиною , для которого
Как известно, если элементы матрицы - случайные, т.е. - случайная матрица, то ее математическим ожиданием является матрица, составленная из математических ожиданий ее элементов, т.е. .
Утверждение 1. Пусть и - случайные матрицы порядка и соответственно, причем любая пара их элементов состоит из независимых случайных величин. Тогда математическое ожидание произведения матриц равно произведению математических ожиданий сомножителей, т.е. .
Доказательство. На основании определения математического ожидания матрицы заключаем, что
но так как случайные величины независимы, то что и требовалось доказать.Утверждение 2. Пусть и - случайные матрицы порядка и соответственно. Тогда математическое ожидание суммы матриц равно сумме математических ожиданий слагаемых, т.е. .
Доказательство. На основании определения математического ожидания матрицы заключаем, что
что и требовалось доказать.Найдем математическое ожидание и ковариационную матрицу вектора с помощью утверждений 1, 2 и выражения для приведенного выше. Имеем
Но так как , то . Это означает, что оценка МНК является несмещенной.
Найдем ковариационную матрицу:
Можно доказать, что
но поэтомуКак выяснено ранее, для достаточно большого количества опытов выполняется приближенное равенство
( 51) |
Можно утверждать, что вектор имеет асимптотически нормальное распределение, т.е.
Тогда совместная функция плотности распределения вероятностей случайных величин будет иметь вид:
( 52) |
Тогда справедливы соотношения
Подставим в формулу (52), получим
гдеВычислим асимптотическую вероятность попадания описывающего реальность вектора параметров в -мерный куб с длиной стороны, равной , и с центром .
Сделаем замену
Тогда
где , а - интеграл Лапласа, где - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Из последнего соотношения получаем где - обратная функция Лапласа. Отсюда следует, что( 53) |
Напомним, что доверительная область - это -мерный куб, длина стороны которого равна , т.е.
Подставляя в формулу (53), получим
( 54) |
Соотношение (54) выражает зависимость размеров доверительной области (т.е. длины ребра куба ) от числа опытов , среднего квадратического отклонения ошибки и доверительной вероятности . Это соотношение понадобится для определения рационального объема выборки.
Переходим к этапу 2. Необходимо ввести меру разброса (неопределенности) и установить соотношение между статистической и интервальной (метрологической) неопределенностями в соответствии с ранее сформулированным общим подходом.
Пусть - некоторое измеримое множество точек в -мерном евклидовом пространстве, характеризующее неопределенность задания вектора . Тогда необходимо ввести некую меру , измеряющую степень неопределенности. Такой мерой может служить -мерный объем множества (т.е. его мера Лебега или Жордана), .
Пусть - -мерный параллелепипед, характеризующий интервальную неопределенность. Длины его сторон равны значениям нотн , а центр (точка пересечений диагоналей параллелепипеда) находится в точке . Пусть - измеримое множество точек, характеризующее общую неопределенность. В рассматриваемом случае это -мерный параллелепипед, длины сторон которого равны , а центр находится в точке . Тогда
( 55) |
( 56) |
Справедливо соотношение (49), согласно которому , где множество характеризует статистическую неопределенность.
На этапе 3 получаем по результатам этапов 1 и 2 выражение для рационального объема выборки. Найдем то число опытов, при котором статистическая неопределенность составит 100% от общей неопределенности, т.е. согласно правилу (50)
( 57) |
Следовательно, .
Преобразуем эту формулу:
откудаЕсли статистическая погрешность мала относительно метрологической, т.е. величины малы, то
При эта формула является точной. Из нее следует, что для дальнейших расчетов можно использовать соотношение
Отсюда нетрудно найти :
( 58) |
Подставив в формулу (58) зависимость , полученную в формуле (54), находим приближенное (асимптотическое) выражение для рационального объема выборки:
При эта формула также справедлива, более того, является точной.
Переход от произведения к сумме является обоснованным при достаточно малом , т.е. при достаточно малой статистической неопределенности по сравнению с метрологической. В общем случае можно находить и затем рациональный объем выборки тем или иным численным методом.
Пример 1. Представляет интерес определение nрац для случая, когда , поскольку простейшая линейная регрессия с широко применяется. В этом случае базовое соотношение имеет вид
Решая это уравнение относительно , получаем
Далее, подставив в формулу (54), получим уравнение для рационального объема выборки в случае :
Следовательно,
При использовании "принципа уравнивания погрешностей" согласно [ [ 1.15 ] ] . При доверительной вероятности имеем и согласно [ [ 2.1 ] ] . Для этих численных значений
Если то . Если же то . Если первое из этих чисел превышает обычно используемые объемы выборок, то второе находится в "рабочей зоне" регрессионного анализа.
Парная регрессия. Наиболее простой и одновременно наиболее широко применяемый частный случай парной регрессии рассмотрим подробнее. Модель имеет вид
Здесь - значения фактора (независимой переменной), - значения отклика (зависимой переменной), - статистические погрешности, - неизвестные параметры, оцениваемые методом наименьших квадратов. Она переходит в модель (используем альтернативную запись линейной модели)
если положитьЕстественно принять, что погрешности факторов описываются матрицей
В рассматриваемой модели интервального метода наименьших квадратов
где - наблюдаемые (т.е. известные статистику) значения фактора и отклика, - истинные значения переменных, - погрешности измерений переменных. Пусть - оценка метода наименьших квадратов, вычисленная по наблюдаемым значениям переменных, - аналогичная оценка, найденная по истинным значениям. В соответствии с ранее проведенными рассуждениями( 59) |
Легко видеть, что
( 60) |
где суммирование проводится от 1 до . Для упрощения обозначений в дальнейшем до конца настоящего параграфа не будем указывать эти пределы суммирования. Из (60) вытекает, что
( 61) |
Легко подсчитать, что
( 62) |
Положим
Тогда знаменатель в (61) равен . Из (61) и (62) следует, что
( 63) |
Здесь и далее опустим индекс , по которому проводится суммирование. Это не может привести к недоразумению, поскольку всюду суммирование проводится по индексу в интервале от 1 до . Из (61) и (63) следует, что
( 64) |
Наконец, вычисляем основной множитель в (59)
( 65) |
Перейдем к вычислению второго члена с в (59). Имеем
( 67) |
Складывая правые части (65) и (67) и умножая на , получим окончательный вид члена с в (59):
( 68) |
Для вычисления нотны выделим главный линейный член. Сначала найдем частные производные. Имеем
( 70) |
Если ограничения имеют вид
то максимально возможное отклонение оценки параметра из-за погрешностей таково: где производные заданы формулой (70).Пример 2. Пусть вектор имеет двумерное нормальное распределение с нулевыми математическими ожиданиями, единичными дисперсиями и коэффициентом корреляции . Тогда
( 71) |
При этом
следовательно, максимально возможному изменению параметра соответствует сдвиг всех в одну сторону, т.е. наличие систематической ошибки при определении -ов. В то же время согласно (71) значения в асимптотике выбираются по правилуТаким образом, максимальному изменению соответствуют не те , что максимальному изменению . В этом - новое по сравнению с одномерным случаем. В зависимости от вида ограничений на возможные отклонения, в частности, от вида метрики в пространстве параметров, будут "согласовываться" отклонения по отдельным параметрам. Ситуация аналогична той, что возникает в классической математической статистике в связи с оптимальным оцениванием параметров. Если параметр одномерен, то ситуация с оцениванием достаточно прозрачна - есть понятие эффективных оценок, показателем качества оценки является средний квадрат ошибки, а при ее несмещенности - дисперсия. В случае нескольких параметров возникает необходимость соизмерить точность оценивания по разным параметрам. Есть много критериев оптимальности (см., например, [ [ 12.21 ] ]), но нет признанных правил выбора среди них.
Вернемся к формуле (59). Интересно, что отклонения вектора параметров, вызванные отклонениями значений факторов и отклика , входят в (59) аддитивно. Хотя
но для отдельных компонент (не векторов!) имеет место равенство.В случае парной регрессии
( 72) |
Из формул (68), (69) и (72) следует, что
где и определены в (69), аИтак, продемонстрирована возможность применения основных подходов статистики интервальных данных в регрессионном анализе. Пример практического применения этих подходов при оценивании зависимости затрат от объема выпуска продукции дан в статье: Гуськова Е.А., Орлов А.И. Интервальная линейная парная регрессия (обобщающая статья). - Журнал "Заводская лаборатория". 2005. Т.71. No.3. С.57-63.