Опубликован: 09.11.2009 | Доступ: свободный | Студентов: 3657 / 731 | Оценка: 4.66 / 4.45 | Длительность: 54:13:00
Специальности: Экономист
Лекция 9:

Многомерный статистический анализ

Аннотация: В лекции даются основы корреляционного (параметрического и непараметрического), регрессионного анализа, теории классификации и методов снижения размерности признакового пространства. Рассматриваются отдельные вопросы построения и применения индексов.
Ключевые слова: выборка, связь, коэффициент корреляции, ПО, сходимость, функция, математическим ожиданием, дисперсия, выражение, нормальное распределение, представление, равенство, статистическая гипотеза, гипотеза, значение, координаты, принятия решений, путь, ранг, шкала измерений, переменная, индекс, переменные связи, метод наименьших квадратов, метода наименьших квадратов, производные, множитель, место, остаточная сумма квадратов, статистика, погрешность, доверительная вероятность, Квантиль, вероятностная модель, константы, разность, анализ, доказательство, доверительный интервал, тренд, алгоритм, линейное уравнение, коэффициенты, производственная функция, свободными членами, таблица, параметр, минимум, многочлен, линейная функция, локальные минимумы, вероятность, регрессионными зависимостями, Построение математической модели, линейная модель, модуль, вектор, статистический анализ, объект, метрика, евклидово пространство, распознавание образов, диагностика, сортировка, опыт, классификатор, разбиение, кластеризация, кластер, обучающая выборка, таксономия, cluster, кластерный анализ, деление, расстояние, дерево, дендрограмма, предметной области, алгоритм k-средних, алгоритм ближайшего соседа, отрезок, устойчивость, тезаурус, куча, математическая индукция, Метод группировки, объединение, статистический критерий, статистические методы, метод статистических испытаний, структура данных, матрица, монотонно убывающей, множества, случайная величина, правило проверки, центр кластера, вычисление, евклидово расстояние, медиана, точность, оценка максимального правдоподобия, детерминированный метод, АРМ, решающее правило, вывод, значения порогов, специалист предметной области, размерность, число независимости, линейная комбинация, компонент, гиперплоскость, итерация, орт, плоскость, факторный анализ, класс, латентность, факторное пространство, мера, натуральное число, базис, Единичная матрица, вычислительный эксперимент, INDEX, список, товар, стоимость, процент, текущая стоимость, бухгалтерский учет, плата, оплата, расходы, Корзина, фирма, кредит, амортизационные отчисления, прибыль

В многомерном статистическом анализе выборка состоит из элементов многомерного пространства. Отсюда и название этого раздела прикладной статистики. Из многих задач многомерного статистического анализа рассмотрим основные - корреляцию, восстановление зависимости, классификацию, уменьшение размерности, индексы.

9.1. Коэффициенты корреляции

Термин "корреляция" означает "связь". В прикладной статистике этот термин обычно используется в сочетании "коэффициенты корреляции". Рассмотрим линейный и непараметрические парные коэффициенты корреляции.

Обсудим способы измерения связи между двумя случайными переменными. Пусть исходными данными является набор случайных векторов (x_i,y_i)=(x_i(\omega),y_i(\omega)),i=1,2,...,n. Выборочным коэффициентом корреляции, более подробно, выборочным линейным парным коэффициентом корреляции К. Пирсона, как известно, называется число

r_n=\frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}}.

Если r_n = 1, то y_i=ax_i+b, причем a > 0. Если же r_n = -1, то y_i=ax_i+b, причем a<0. Таким образом, близость коэффициента корреляции к 1 (по абсолютной величине) говорит о достаточно тесной линейной связи.

Если случайные векторы (x_i,y_i)=(x_i(\omega),y_i(\omega)),i=1,2,...,n независимы и одинаково распределены, то выборочный коэффициент корреляции сходится к теоретическому при безграничном возрастании объема выборки:

r_n\rightarrow\rho=\frac{M(x_1-M(x_1))(y_1-M(y_1))}{\sqrt{D(x_1)}\sqrt{D(y_1)}}
(сходимость по вероятности).

Более того, выборочный коэффициент корреляции является асимптотически нормальным. Это означает, что

\lim_{n\rightarrow\infty}P\left(\frac{r_n-\rho}{\sqrt{D_0(r_n)}< x}\right)=\Phi(x),
где \Phi(x) - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1, а D_0(r_n) - асимптотическая дисперсия выборочного коэффициента корреляции. Она имеет довольно сложное выражение, приведенное в монографии [ [ 2.10 ] , с.393]:
D_0(r_n)=\frac{\rho^2}{4n}
\left(
\frac{\mu_{40}}{\mu_{20}^2}+\frac{\mu_{04}}{\mu_{02}^2}+\frac{2\mu_{22}}{\mu_{20}\mu_{02}}+
\frac{4\mu_{22}}{\mu_{11}^2}-\frac{4\mu_{31}}{\mu_{11}\mu_{20}}-\frac{4\mu_{13}}{\mu_{11}\mu_{02}}
\right).

Здесь под \mu_{km} понимаются теоретические центральные моменты порядка k и m, а именно,

\mu_{km}=M(x_1-M(x_1))^k(y_1-M(y_1))^m.

Коэффициенты корреляции типа r_n используются во многих алгоритмах многомерного статистического анализа. В теоретических рассмотрениях часто считают, что случайные векторы (x_i,y_i)=(x_i(\omega),y_i(\omega)), i=1,2,...,n, имеют двумерное нормальное распределение. Распределения реальных данных, как правило, отличны от нормальных (см. "Описание данных" ). Почему же распространено представление о двумерном нормальном распределении? Дело в том, что теория в этом случае более проста. В частности, равенство 0 теоретического коэффициента корреляции эквивалентно независимости случайных величин. Поэтому проверка независимости сводится к проверке статистической гипотезы о равенстве 0 теоретического коэффициента корреляции. Эта гипотеза принимается, если |r_n|<C(n,\alpha), где C(n,\alpha) - некоторое граничное значение, зависящее от объема выборки n и уровня значимости \alpha.

Если предположение о двумерной нормальности не выполнено, то из равенства 0 теоретического коэффициента корреляции не вытекает независимость случайных величин. Нетрудно построить пример случайного вектора, для которого коэффициент корреляции равен 0, но координаты зависимы. Кроме того, для проверки гипотез о коэффициенте корреляции нельзя пользоваться таблицами, рассчитанными в предположении нормальности. Можно построить правила принятия решений на основе асимптотической нормальности выборочного коэффициента корреляции. Но есть и другой путь - перейти к непараметрическим коэффициентам корреляции, одинаково пригодным при любом непрерывном распределении случайного вектора.

Для расчета непараметрического коэффициента ранговой корреляции Спирмена необходимо сделать следующее. Для каждого x_i рассчитать его ранг r_i в вариационном ряду, построенном по выборке x_1,x_2,...,x_n. Для каждого y_i рассчитать его ранг q_i в вариационном ряду, построенном по выборке y_1,y_2,...,y_n. Для набора из n пар (r_i,q_i),i=1,2,...,n вычислить линейный коэффициент корреляции. Он называется коэффициентом ранговой корреляции, поскольку определяется через ранги. В качестве примера рассмотрим данные из табл.9.1 (см. монографию [ [ 9.7 ] ]).

Таблица 9.1. Данные для расчета коэффициентов корреляции
i 1 2 3 4 5
x_i 5 10 15 20 25
y_i 6 7 30 81 300
r_i 1 2 3 4 5
q_i 1 2 3 4 5

Для данных табл.9.1 коэффициент линейной корреляции равен 0,83, непосредственной линейной связи нет. А вот коэффициент ранговой корреляции равен 1, поскольку увеличение одной переменной однозначно соответствует увеличению другой переменной. Во многих экономических задачах, например, при выборе инвестиционных проектов, достаточно именно монотонной зависимости одной переменной от другой.

Поскольку суммы рангов и их квадратов нетрудно подсчитать, то коэффициент ранговой корреляции Спирмена равен

\rho_n=1\frac{6\sum_{i=1}^n(r_i-q_i)^2}{n^3-n}.

Отметим, что коэффициент ранговой корреляции Спирмена остается постоянным при любом строго возрастающем преобразовании шкалы измерения результатов наблюдений. Другими словами, он является адекватным в порядковой шкале (см. "Описание данных" ), как и другие ранговые статистики, например, статистики Вилкоксона, Смирнова, типа омега-квадрат для проверки однородности независимых выборок ( "Статистический анализ числовых величин" ).

Широко используется также коэффициент ранговой корреляции \tau Кендалла, коэффициент ранговой конкордации Кендалла и Б. Смита и др. Наиболее подробное обсуждение этой тематики содержится в монографии [ [ 9.5 ] ], необходимые для практических расчетов таблицы имеются в справочнике [ [ 2.1 ] ]. Дискуссия о выборе вида коэффициентов корреляции продолжается до настоящего времени [ [ 9.7 ] ].

Михаил Яковлев
Михаил Яковлев
Россия, Санкт-Петербург
Dmitry Kalinnikov
Dmitry Kalinnikov
Россия, Москва