Курс знакомит слушателей с технологией Data Mining, подробно рассматриваются методы, инструментальные средства и применение Data Mining. Описание каждого метода сопровождается конкретным примером его использования.
Обсуждаются отличия Data Mining от классических статистических методов анализа и OLAP-систем, рассматриваются типы закономерностей, выявляемых Data Mining (ассоциация, классификация, последовательность, кластеризация, прогнозирование). Описывается сфера применения Data Mining. Вводится понятие Web Mining.
Подробно рассматриваются методы Data Mining: нейронные сети, деревья решений, методы ограниченного перебора, генетические алгоритмы, эволюционное программирование, кластерные модели, комбинированные методы. Знакомство с каждым методом проиллюстрировано решением практической задачи с помощью инструментального средства, использующего технологию Data Mining.Излагаются основные концепции хранилищ данных и места Data Mining в их архитектуре. Вводятся понятия OLTP, OLAP, ROLAP, MOLAP.Обсуждается процесс анализа данных с помощью технологии Data Mining. Подробно рассматриваются этапы этого процесса. Анализируется рынок аналитического программного обеспечения, описываются продукты от ведущих производителей Data Mining, обсуждаются их возможности.
ISBN: 978-5-9556-0064-2
В лекции подробно рассмотрено понятие Data Mining. Описано возникновение, перспективы, проблемы Data mining. Дан взгляд на технологию Data Mining как на часть рынка информационных технологий.
-
В лекции подробно рассматривается понятие данных. Объясняется значение понятий объект и атрибут, выборка, зависимая и независимая переменная. Подробно обсуждаются типы шкал. Приводятся различные типы наборов данных. Кратко рассмотрены понятия базы данных и СУБД.
-
В лекции описаны стадии Data Mining и действия, выполняемые в рамках этих стадий. Рассмотрены известные классификации методов Data Mining. Приведена сравнительная характеристика некоторых методов, основанная на их свойствах.
-
В лекции кратко описана основная суть задач Data Mining и их классификация. Подробно рассмотрены понятия "информация", "знания", а также дано сопоставление и сравнение этих понятий.
-
В этой лекции подробно рассматриваются две задачи Data Mining - классификация и кластеризация. Описаны суть задач, процесс решения, методы решения, применение. Приведено сравнение двух рассмотренных задач.
-
В лекции описана суть задачи прогнозирования. Рассмотрено понятие временного ряда, его компоненты, параметры прогнозирования, виды прогнозов. Кратко охарактеризована задача визуализации данных.
-
В лекции рассмотрены основные сферы деятельности человека, где может успешно применяться технология Data Mining. Вводятся понятия Web Mining, Text Mining, Call Mining.
-
Лекция посвящена основам анализа данных, рассмотрены основные характеристики описательной статистики, кратко изложена суть корреляционного и регрессионного анализа. Приведены примеры решения задач в Microsoft Excel.
-
Описывается метод деревьев решений. Рассматриваются элементы дерева решения, процесс его построения. Приведены примеры деревьев, решающих задачу классификации. Даны алгоритмы конструирования деревьев решений CART и C4.5.
-
Описаны основные идеи метода опорных векторов, метода "ближайшего соседа" и байесовской классификации. Рассмотрены преимущества и недостатки этих методов.
-
В лекции описывается метод нейронных сетей. Рассмотрены элементы и архитектура, процесс обучения и явление переобучения нейронной сети. Описана такая модель нейронной сети как персептрон. Приведен пример решения задачи при помощи аппарата нейронных сетей.
-
В лекции продолжается описание работы с нейронными сетями, в частности, рассматриваются классификации нейронных сетей. Описан процесс подготовки данных для обучения. Подробно рассмотрены самоорганизующиеся карты Кохонена, приведен пример решения задачи.
-
В лекции рассматриваются основы кластерного анализа, математические характеристики кластера. Описаны две группы иерархического кластерного анализа: агломеративные и дивизимные методы. Приведен пример иерархического кластерного анализа в SPSS.
-
Рассмотрены итеративные методы на примере алгоритма k-средних. Изложена основа факторного анализа и итеративная кластеризация в SPSS. Описан процесс кластерного анализа. Приведен сравнительный анализ иерархических и неиерархических методов и некоторые новые алгоритмы.
-
В лекции описана суть задачи поиска ассоциативных правил. Рассмотрен алгоритм Apriori. Кратко изложена суть некоторых других алгоритмов. Рассмотрен пример решения задачи в аналитическом пакете Deductor.
-
В лекции рассматриваются методы и средства визуального представления информации, в частности, способы представления информации в одно-, двух-, трехмерном измерениях, а также способы отображения информации в более чем трех измерениях. Описаны принципы качественной визуализации. Изложены основные тенденции в области визуализации.
-
В лекции рассматриваются такой тип информационных систем, как СППР, их типы и компоненты. Изложены основные идеи OLAP-технологии, архитектуры OLAP-серверов, интеграции Data Mining и OLAP. Описана технология хранилищ данных и преимущества их использования, в частности, для процесса Data Mining.
-
В лекции рассматриваются три первые этапа процесса Data Mining. Подробно описан процесс подготовки данных, введены понятия качества данных, грязных данных, этапы очистки данных.
-
Рассматриваются две классификации инструментов очистки и редактирования данных, основные функции инструментов очистки данных, классификация ошибок в данных, которые возникают в результате использования средств очистки данных.
-
В лекции рассматриваются этапы процесса Data Mining, связанные с построением, проверкой, оценкой, выбором и коррекцией моделей. Подробно исследуются понятия "модель" и "моделирование".
-
В лекции процесс Data Mining рассматривается с точки зрения организационных факторов, а также в соответствии с известными методологиями CRISP и SEMMA. Кратко описываются стандарты, имеющие прямое и опосредованное отношение к Data Mining.
-
В лекции рассматривается рынок инструментов Data Mining, в частности, его развитие, поставщики инструментов, классификация инструментов. Описаны критерии, по которым можно сравнивать и выбирать инструмент Data Mining.
-
В лекции рассматривается пакет SAS Enterprise Miner 5.1. Дан обзор программного продукта, описаны основные характеристики и технические требования пакета. Кратко описан подход SAS к созданию информационно-аналитических систем.
-
В лекции описывается система PolyAnalyst. Рассматривается ее архитектура, аналитический инструментарий, краткая характеристика математических алгоритмов PolyAnalyst. Кратко охарактеризована система WebAnalyst.
-
В лекции рассмотрено два инструмента Data Mining. Первый из них - комплекс программных средств компании Cognos; описаны особенности методологии моделирования в системе. Второй инструмент - STATISTICA Data Miner, описаны средства анализа и схема работы.
-
В лекции рассматриваются два продукта: Data Mining от Oracle и Deductor. Дана характеристика Oracle Data Mining, реализованные алгоритмы и функциональные возможности. Рассмотрена аналитическая платформа Deductor, архитектура ее системы и аналитические алгоритмы.
-
Рассматривается программное обеспечение KXEN. Указываются отличия подхода KXEN от традиционного подхода Data Mining. Исследуются предпосылки создания системы KXEN и ее технические характеристики. Описаны ключевые компоненты системы KXEN. Разобрана технология IOLAP.
-
Рассмотрено понятие Data Mining-консалтинга, предоставления услуг по эффективному внедрению этой технологии. Описаны преимущества этого варианта. Изложена процедура работы консалтинговой компании SnowCactus с клиентом.
-