Здравствуйте! 4 июня я записалась на курс Прикладная статистика. Заплатила за получение сертификата. Изучала лекции, прошла Тест 1. Сегодня вижу, что я вне курса! Почему так произошло? |
Оценивание
Аппроксимация и регрессия. Соотношение (1) дает решение задачи аппроксимации. Поясним, как эта задача соотносится с нахождением регрессии. Согласно [ [ 1.19 ] ] для случайной величины со значениями в регрессией на относительно меры близости естественно назвать решение задачи
( 2) |
Можно исходить и из другого определения. Для каждого рассмотрим случайную величину , распределение которой является условным распределением при условии . В соответствии с определением математического ожидания в пространстве общей природы назовем условным математическим ожиданием решение экстремальной задачи
Оказывается, при обычных предположениях измеримости решение задачи (2) совпадает с . (Внутриматематические уточнения типа "равенство имеет место почти всюду" здесь опущены.)
Если заранее известно, что условное математическое ожидание принадлежит некоторому параметрическому семейству , то задача нахождения регрессии сводится к оцениванию параметра в соответствии с рассмотренной выше второй постановкой вероятностной теории параметрической регрессии. Если же нет оснований считать, что регрессия принадлежит параметрическому семейству, то можно использовать непараметрические оценки регрессии. Они строятся с помощью непараметрических оценок плотности (см. "Описание данных" ).
Пусть - мера в , - мера в , а их прямое произведение - мера в . Пусть - плотность случайного элемента по мере . Тогда условная плотность распределения при условии имеет вид
( 3) |
Заменяя в (3) непараметрической оценкой плотности , получаем оценку условной плотности
( 4) |
Если - состоятельная оценка , то числитель (4) сходится к числителю (3). Сходимость знаменателя (4) к знаменателю (3) обосновывается с помощью предельной теории статистик интегрального типа (см. "Проверка гипотез" ). В итоге получаем утверждение о состоятельности непараметрической оценки (4) условной плотности (3).
Непараметрическая оценка регрессии ищется как M_n(\eta|\xi=x)=Arg\min_{y\in Y}\int\limits_Y f(y,a)g_n(a|x)\nu_2(da).
Состоятельность этой оценки следует из приведенных выше общих результатов об асимптотическом поведении решений экстремальных статистических задач.
Применение к методу главных компонент. Исходные данные - набор векторов , лежащих в евклидовом пространстве размерности . Цель состоит в снижении размерности, т.е. в уменьшении числа рассматриваемых показателей. Для этого берут всевозможные линейные ортогональные нормированные центрированные комбинации исходных показателей, получают новых показателей, из них берут первые , где (подробности см. в "Многомерный статистический анализ" ). Матрицу преобразования выбирают так, чтобы максимизировать информационный функционал
( 5) |
Укажем подробнее, как новые показатели (главные компоненты) строятся по исходным показателям с помощью матрицы :
где( 6) |
( 7) |
Решением основной задачи метода главных компонент является
где минимизируемая функция определена формулой (5), а минимизация проводится по всем матрицам , удовлетворяющим условиям (6) и (7).Вычисление матрицы - задача детерминированного анализа данных. Однако, как и в иных случаях, например, для медианы Кемени, возникает вопрос об асимптотическом поведении . Является ли решение основной задачи метода главных компонент устойчивым, т.е. существует ли предел при ? Чему равен этот предел?
Ответ, как обычно, может быть дан только в вероятностной теории. Пусть - независимые одинаково распределенные случайные векторы. Положим
где матрица удовлетворяет условиям (6) и (7). Введем функцию от матрицыЛегко видеть, что при и любом C
Рассмотрим решение предельной экстремальной задачи
Естественно ожидать, что
Действительно, это соотношение вытекает из приведенных выше общих результатов об асимптотическом поведении решений экстремальных статистических задач.
Таким образом, теория, развитая для пространств произвольной природы, позволяет единообразным образом изучать конкретные процедуры прикладной статистики.