НИУ ВШЭ (Высшая Школа Бизнес-Информатики): 
                  Data Mining
:Data Mining
: Информация
                Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный    
    
                Курс знакомит слушателей с технологией Data Mining, подробно рассматриваются методы, инструментальные средства и применение Data Mining. Описание каждого метода сопровождается конкретным примером его использования.    
    
                Обсуждаются отличия Data Mining от классических статистических методов анализа и OLAP-систем, рассматриваются типы закономерностей, выявляемых Data Mining (ассоциация, классификация, последовательность, кластеризация, прогнозирование). Описывается сфера применения Data Mining. Вводится понятие Web Mining.
Подробно рассматриваются методы Data Mining: нейронные сети, деревья решений, методы ограниченного перебора, генетические алгоритмы, эволюционное программирование, кластерные модели, комбинированные методы.  Знакомство с каждым методом проиллюстрировано решением практической задачи с помощью инструментального средства, использующего технологию Data Mining.Излагаются основные концепции хранилищ данных и места Data Mining в их архитектуре. Вводятся понятия OLTP, OLAP, ROLAP, MOLAP.Обсуждается процесс анализа данных с помощью технологии Data Mining. Подробно рассматриваются этапы этого процесса. Анализируется рынок аналитического программного обеспечения, описываются продукты от ведущих производителей Data Mining, обсуждаются их возможности.    
    
                Цель: Познакомить слушателей с теоретическими аспектами технологии Data Mining, методами, возможностью их применения, дать практические навыки по использованию инструментальных средств Data Mining    
    
                Необходимые знания: Желательны, но не обязательны знания по информатике, основам теории баз данных, знания по математике (в пределах начальных курсов ВУЗа), технологии обработки информации.    
    | Предварительные курсы | 
План занятий
| Занятие | Заголовок << | Дата изучения | 
|---|---|---|
| - | ||
| Лекция 141 минута | Что такое Data Mining?
      В лекции подробно рассмотрено понятие Data Mining. Описано возникновение, перспективы, проблемы Data mining. Дан взгляд на технологию Data Mining как на часть рынка информационных технологий. Оглавление | - | 
| Тест 115 минут | - | |
| Лекция 244 минуты | Данные
      В лекции подробно рассматривается понятие данных. Объясняется значение понятий объект и атрибут, выборка, зависимая и независимая переменная. Подробно обсуждаются типы шкал. Приводятся различные типы наборов данных. Кратко рассмотрены понятия базы данных и СУБД. Оглавление | - | 
| Тест 215 минут | - | |
| Лекция 340 минут | Методы и стадии Data Mining
      В лекции описаны стадии Data Mining и действия, выполняемые в рамках этих стадий. Рассмотрены известные классификации методов Data Mining. Приведена сравнительная характеристика некоторых методов, основанная на их свойствах. Оглавление | - | 
| Тест 315 минут | - | |
| Лекция 444 минуты | Задачи Data Mining. Информация и знания
      В лекции кратко описана основная суть задач Data Mining  и их классификация. Подробно рассмотрены понятия "информация", "знания", а также дано сопоставление и сравнение этих понятий. Оглавление | - | 
| Тест 415 минут | - | |
| Лекция 542 минуты | Задачи Data Mining. Классификация и кластеризация
      В этой лекции подробно рассматриваются две задачи Data Mining - классификация и кластеризация. Описаны суть задач, процесс решения, методы решения, применение. Приведено сравнение двух рассмотренных задач. Оглавление | - | 
| Тест 515 минут | - | |
| Лекция 642 минуты | Задачи Data Mining. Прогнозирование и визуализация
      В лекции описана суть задачи прогнозирования. Рассмотрено понятие временного ряда, его компоненты, параметры прогнозирования, виды прогнозов. Кратко охарактеризована задача визуализации данных. Оглавление | - | 
| Тест 615 минут | - | |
| Лекция 737 минут | Сферы применения Data Mining
      В лекции рассмотрены основные сферы деятельности человека, где может успешно применяться технология Data Mining. Вводятся понятия Web Mining, Text Mining, Call Mining. Оглавление | - | 
| Тест 715 минут | - | |
| Лекция 842 минуты | Основы анализа данных
      Лекция посвящена основам анализа данных, рассмотрены основные характеристики описательной статистики, кратко изложена суть корреляционного и регрессионного анализа. Приведены примеры решения задач в Microsoft Excel. Оглавление | - | 
| Тест 815 минут | - | |
| Лекция 939 минут | Методы классификации и прогнозирования. Деревья решений
      Описывается метод деревьев решений. Рассматриваются элементы дерева решения, процесс его построения. Приведены примеры деревьев, решающих задачу классификации. Даны алгоритмы конструирования деревьев решений CART и C4.5. Оглавление | - | 
| Тест 915 минут | - | |
| Лекция 1039 минут | Методы классификации и прогнозирования. Метод опорных векторов. Метод "ближайшего соседа". Байесовская классификация
      Описаны основные идеи метода опорных векторов, метода "ближайшего соседа" и байесовской классификации. Рассмотрены преимущества и недостатки этих методов. Оглавление | - | 
| Тест 1015 минут | - | |
| Лекция 1148 минут | Методы классификации и прогнозирования. Нейронные сети
      В лекции описывается метод нейронных сетей. Рассмотрены элементы и архитектура, процесс обучения и явление переобучения нейронной сети. Описана такая модель нейронной сети как персептрон. Приведен пример решения задачи при помощи аппарата нейронных сетей. Оглавление | - | 
| Тест 1115 минут | - | |
| Лекция 1235 минут | Нейронные сети. Самоорганизующиеся карты Кохонена.
      В лекции продолжается описание работы с нейронными сетями, в частности, рассматриваются классификации нейронных сетей. Описан процесс подготовки данных для обучения. Подробно рассмотрены самоорганизующиеся карты Кохонена, приведен пример решения задачи. Оглавление | - | 
| Тест 1215 минут | - | |
| Лекция 1339 минут | Методы кластерного анализа. Иерархические методы
      В лекции рассматриваются основы кластерного анализа, математические характеристики кластера. Описаны две группы иерархического кластерного анализа: агломеративные и дивизимные методы. Приведен пример иерархического кластерного анализа в SPSS. Оглавление | - | 
| Тест 1315 минут | - | |
| Лекция 1435 минут | Методы кластерного анализа. Итеративные методы.
      Рассмотрены итеративные методы на примере алгоритма k-средних. Изложена основа факторного анализа и итеративная кластеризация в SPSS. Описан процесс кластерного анализа. Приведен сравнительный анализ иерархических и неиерархических методов и некоторые новые алгоритмы. Оглавление | - | 
| Тест 1415 минут | - | |
| Лекция 1546 минут | Методы поиска ассоциативных правил
      В лекции описана суть задачи поиска ассоциативных правил. Рассмотрен алгоритм Apriori. Кратко изложена суть некоторых других алгоритмов. Рассмотрен пример решения задачи в аналитическом пакете Deductor. Оглавление | - | 
| Тест 1515 минут | - | |
| Лекция 1636 минут | Способы визуального представления данных. Методы визуализации
      В лекции  рассматриваются методы и средства визуального представления информации, в частности, способы представления информации в одно-, двух-, трехмерном измерениях, а также способы отображения информации в более чем трех измерениях. Описаны принципы качественной визуализации. Изложены основные тенденции в области визуализации. Оглавление | - | 
| Тест 1615 минут | - | |
| Лекция 1745 минут | Комплексный подход к внедрению Data Mining, OLAP и хранилищ данных в СППР
      В лекции рассматриваются такой тип информационных систем, как СППР, их типы и компоненты. Изложены основные идеи  OLAP-технологии, архитектуры OLAP-серверов, интеграции Data Mining и OLAP. Описана технология хранилищ данных и преимущества их использования, в частности, для процесса Data Mining. Оглавление | - | 
| Тест 1715 минут | - | |
| Лекция 1837 минут | Процесс Data Mining. Начальные этапы
      В лекции рассматриваются три первые этапа процесса Data Mining. Подробно описан процесс подготовки данных, введены понятия качества данных, грязных данных, этапы очистки данных. Оглавление | - | 
| Тест 1815 минут | - | |
| Лекция 1937 минут | Процесс Data Mining. Очистка данных
      Рассматриваются две классификации инструментов очистки и редактирования данных, основные функции инструментов очистки данных, классификация ошибок в данных, которые возникают в результате использования средств очистки данных. Оглавление | - | 
| Тест 1915 минут | - | |
| Лекция 2051 минута | Процесс Data Mining. Построение и использование модели
      В лекции рассматриваются этапы процесса Data Mining, связанные с построением, проверкой, оценкой, выбором и коррекцией моделей. Подробно исследуются понятия "модель" и "моделирование". Оглавление | - | 
| Тест 2015 минут | - | |
| Лекция 2144 минуты | Организационные и человеческие факторы в Data Mining. Стандарты Data Mining
      В лекции процесс Data Mining рассматривается с точки зрения организационных факторов, а также в соответствии с известными методологиями CRISP и SEMMA. Кратко описываются стандарты, имеющие прямое и опосредованное отношение к Data Mining. Оглавление | - | 
| Тест 2115 минут | - | |
| Лекция 2245 минут | Рынок инструментов Data Mining
      В лекции рассматривается рынок инструментов Data Mining, в частности, его развитие, поставщики инструментов, классификация инструментов. Описаны критерии, по которым можно сравнивать и выбирать инструмент Data Mining. Оглавление | - | 
| Тест 2215 минут | - | |
| Лекция 2351 минута | Инструменты Data Mining. SAS Enterprise Miner
      В лекции рассматривается пакет SAS Enterprise Miner 5.1. Дан обзор программного продукта, описаны основные характеристики и технические требования пакета. Кратко описан подход SAS к созданию информационно-аналитических систем. Оглавление | - | 
| Тест 2315 минут | - | |
| Лекция 2445 минут | Инструменты Data Mining. Система PolyAnalyst
      В лекции описывается система PolyAnalyst. Рассматривается ее архитектура, аналитический инструментарий, краткая характеристика математических алгоритмов PolyAnalyst. Кратко охарактеризована система WebAnalyst. Оглавление | - | 
| Тест 2415 минут | - | |
| Лекция 2549 минут | Инструменты Data Mining. Программные продукты Cognos и система STATISTICA Data Miner
      В лекции рассмотрено два инструмента Data Mining. Первый из них - комплекс программных средств компании Cognos; описаны особенности методологии моделирования в системе. Второй  инструмент - STATISTICA Data Miner, описаны средства анализа и схема работы. Оглавление | - | 
| Тест 2515 минут | - | |
| Лекция 2642 минуты | Инструменты Oracle Data Mining и Deductor
      В лекции рассматриваются два продукта: Data Mining от Oracle и Deductor. Дана характеристика Oracle Data Mining, реализованные алгоритмы и функциональные возможности. Рассмотрена аналитическая платформа Deductor, архитектура ее системы и аналитические алгоритмы. Оглавление | - | 
| Тест 2615 минут | - | |
| Лекция 2733 минуты | Инструмент KXEN
      Рассматривается программное обеспечение  KXEN. Указываются отличия подхода KXEN от традиционного подхода Data Mining. Исследуются  предпосылки создания системы KXEN и ее технические характеристики. Описаны ключевые компоненты системы KXEN. Разобрана технология IOLAP. Оглавление | - | 
| Тест 2715 минут | - | |
| Лекция 2836 минут | Data Mining консалтинг
      Рассмотрено понятие Data Mining-консалтинга, предоставления услуг по эффективному внедрению этой технологии. Описаны преимущества этого варианта. Изложена процедура работы консалтинговой компании SnowCactus с клиентом. Оглавление | - | 
| Тест 2815 минут | - | |
| 5 часов | - | 
 
                             


