Статистические методы анализа данных
: Информация
Опубликована: 05.04.2011 | Уровень: для всех | Стоимость: 490.00 руб. | Длительность: 14 дней
Темы: Базы данных, Математика, Data Mining
Курс посвящен изучению современных методов анализа данных.
Рассматриваются дисперсионный анализ, регрессионный анализ, факторный анализ, методы непараметрического анализа данных.
Цель: Целью курса является изучение основных понятий, приемов и математических методов и моделей, предназначенных для организации сбора, систематизации и обработки статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов
Необходимые знания: Курс требует предварительного изучения: теории вероятностей; линейной алгебры и математического анализа.
План занятий
Занятие | Заголовок << | Дата изучения |
---|---|---|
- | ||
Лекция 1 | Проверка гипотез в однофакторном дисперсионном анализе: параметрический и непараметрический случаи
В лекции рассматривается параметрический дисперсионный анализ (ДА) - проверяется однородность пары выборок при отвержении гипотезы об однородности всех K выборок. Определяется понятие контраста, строится доверительный интервал и проверяется гипотеза о равенстве контраста нулю. В случае непараметрического ДА подробно рассматривается использование критериев Краскела-Уоллиса и Джонкхиера для проверки гипотезы об отсутствии влияния фактора на результат.
Оглавление
| - |
Лекция 2 | Двухфакторный дисперсионный анализ (ДА)
В лекции продолжает рассматриваться однофакторный ДА - приводятся непараметрические оценки Ходжеса-Лемана и Спетволля для параметра сдвига. На основе асимптотической относительной эффективности (АОЭ) делается сравнение критерия Краскела-Уоллиса с классическим. Основная часть лекция посвящена двухфакторному ДА: постановке задачи, описанию простейшей таблицы двухфакторного ДА. Подробно рассматривается вопрос проверки гипотезы об отсутствии влияния главного фактора на результат в параметрическом и непараметрическом случаях (критерии Фридмана и Пейджа). На основе АОЭ делается сравнение критерия Фридмана с классическим.
Оглавление
| - |
Тест 118 минут | - | |
Лекция 3 | Исследование зависимостей между номинальными признаками
В лекции дается понятие шкалы измерения, описыватся наиболее распространенные шкалы. Вводится понятие таблицы сопряженности, подробно рассматривается проверка гипотез о независимости номинальных признаков. Вводятся меры связанности для таблиц сопряженности 2х2: коэффициенты контингенции и ассоциации Юла.
| - |
Лекция 4 | Меры связи номинальных признаков в таблицах сопряженности произвольного размера
В лекции рассматриваются показатели, позволяющие оценить силу связи номинальных признаков: основанные на статистике хи-квадрат (коэффициенты среднеквадратической сопряженности, взаимной сопряженности Пирсона, Крамера) и основанные на прогнозе (меры прогноза Гутмана и Краскела-Гудмана). Приводятся примеры.
| - |
Тест 218 минут | - | |
Лекция 5 | Анализ статистической связи между парой порядковых переменных
В лекции вводятся два коэффициента, позволяющие оценить силу связи между двумя порядковыми переменными: коэффициент ранговой корреляции Спирмена и коэффициент корреляции ранжировок Кендэла. Проводится сравнительный анализ критериев, определяется сфера их применения. Описывается проверка гипотез о равенстве коэффициентов нулю. Приводятся примеры.
| - |
Лекция 6 | Анализ статистической связи между несколькими порядковыми переменными
В лекции описывается построение коэффициента, позволяющего оценить согласованность более, чем двух ранжировок, - коэффициента конкордации Кендэла. Указываются свойства коэффициента конкордации, схема проверки гипотезы о равенстве его нулю. Начинают рассматриваться вопросы изучения связи пары количественных переменных в случае их гауссовского распределения: дается определение независимости признаков, схема проверки гипотезы о независимости, построение доверительного интервала для коэффициента парной корреляции.
| - |
Тест 318 минут | - | |
Лекция 7 | Исследование зависимостей между парой количественных признаков
В лекции описывается исследование связи двух количественных негауссовских признаков в случае их нелинейной связи на основе статистики хи-квадрат. Основная часть лекции посвящена такому показателю связи количественных признаков, как корреляционное отношение: определение, свойства, оценивание.
| - |
Лекция 8 | Анализ множественных связей в количественной шкале
В лекции дается определение частных, множественных коэффициентов корреляции, коэффициента множественной детерминации, описываются их свойства, схема проверки гипотез о равенстве нулю. Ставится задача построения функции регрессии, кратко описываются методы оценивания параметров регрессии (метод наименьших квадратов(МНК), взвешенный МНК, метод наименьших модулей).
| - |
Лекция 9 | Оценка параметров регрессий
В лекции делается обзор методов оценивания параметров регрессий (МНК, взвешенный МНК, метод наименьших модулей, R- и М-оценки). Подробно рассматриваются МНК-оценки и их свойства.
| - |
Лекция 10 | Исследование регрессионных моделей
Описывается вся схема исследования построенной регрессионной модели при справедливости предположения о гауссовости погрешностей. Рассматривается проблема мультиколлинеарности в регрессионных моделях: от выявления мультиколлинеарности до ее устранения с применением метода главных компонент.
Оглавление
| - |
Лекция 11 | Факторный анализ
Лекция посвящена описанию одного из метода снижения размерности признакового пространства - факторного анализа. Рассматриваются алгоритмы метода главных компонент, метода главных факторов и метода максимального правдоподобия. Обосновывается необходимость и указываются предпосылки сжатия данных. Приводятся примеры.
| - |
Тест 418 минут | - | |
5 часов | - |