НОУ ИНТУИТ | Data Mining. Лекция 23: Инструменты Data Mining. SAS Enterprise Miner

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный

|

Вам нравится? Нравится 265 студентам

| Поделиться |

Поддержать программу

Распределенная система интеллектуального анализа данных, ориентированная на крупные предприятия

Пакет SAS Enterprise Miner может быть развернут с использованием Web-портала для тонких клиентов, что обеспечивает удобный доступ к пакету для множества пользователей при минимальных затратах на обслуживание клиентских программ. Пакет SAS Enterprise Miner поддерживает серверные системы Windows, а также различные UNIX~платформы. Технические характеристики пакета изложены в конце этой лекции.

Основные характеристики пакета SAS Enterprise Miner 5.1

Интерфейсы

Простой графический интерфейс, создающий диаграммы процессов обработки данных:

Быстрое создание большого числа качественных моделей.
Возможность доступа через Web-интерфейс.
Доступ к среде программирования SAS.
Возможность обмена диаграммами в формате XML.
Возможность повторного использования диаграмм в качестве шаблонов для других проектов и пользователей.

Пакетная обработка:

Включает в себя все те же возможности, что и графический интерфейс.
Основана на языке SAS macro.

Экспериментальный интерфейс Java API.

Репозитарий моделей с Web-интерфейсом:

Управление большими портфелями моделей.
Поиск моделей по заданному алгоритму, целевой переменной и т.п.
Публикация результатов в виде ступенчатых диаграмм, деревьев и скоринг-кодов, удобных для специалистов в области бизнеса и анализа данных.

Масштабируемая обработка

Серверная обработка - обучение модели в асинхронном режиме. Аккуратная остановка обработки (по заданным критериям).
Параллельная обработка - одновременный запуск нескольких диаграмм или инструментов.
Многопоточные прогностические алгоритмы.
Все хранение и обработка данных - на серверах.

Доступ к данным

Доступ более чем к 50 различным файловым структурам.

Интеграция с пакетом SAS ETL Studio посредством SAS Metadata Server:

SAS ETL Studio можно использовать для определения исходных, обучающих таблиц для пакета Enterprise Miner.
SAS ETL Studio можно использовать для извлечения и развертывания скоринг-кода пакета Enterprise Miner.

Выборки

Простая случайная.
Стратифицированная.
Взвешенная.
Кластерная.
Систематическая.
Первые N наблюдений.
Выборка редких событий.

Разбивка данных

Создание обучающих, проверочных и тестовых наборов данных.
Обеспечение качественного обобщения моделей на основании контрольных данных.
Стандартная стратификация по целевому классу.
Сбалансированная разбивка по любой классовой переменной.

Преобразования

Простые: логарифмическое, квадратный корень, обратное, квадратичное, экспоненциальное, стандартизованное.
Накопительные: bucketed (с разбивкой по областям), квантильное, оптимизированная разбивка по взаимосвязи с целевымм значениями.
Оптимизированные: максимизация нормализации, максимизация корреляции с целевыми значениями, выравнивание распределения по целевым уровням.

Фильтрация недостоверных данных

Применение различных распределительных порогов, позволяющих исключить значения из экстремальных интервалов.
Объединение классовых значений, встречающихся менее n раз.

Замена данных

С использованием мер центрированности.
На основе распределения.
Заполнение дерева суррогатными значениями.
Методом усреднения расстояний.
С использованием устойчивых M-оценок.
С использованием стандартных констант.

Описательная статистика

Одномерные статистические таблицы и графики:

Интервальные переменные n, среднее, медиана, минимум, максимум, стандартное отклонение, масштабированное отклонение и процент отсутствия.
Классовые переменные число категорий, счетчики, модальные, процентные модальные, процент отсутствия.
Графики распределения.
Статистическая разбивка для каждого уровня целевых классов.

Двумерные статистические таблицы и графики:

Упорядоченные графики корреляции Пирсона и Спирмана.
Упорядоченный график хи-квадрат с возможностью группировки непрерывных исходных данных по n группам.
График коэффициентов вариации.

Отбор переменных по logworth-критерию.

Другие интерактивные графики:

"Тепловые" карты, отражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.
Графики стоимости переменных, ранжирующие первоначальные значения на основании их стоимости по целевому признаку.
Распределения классовых переменных по целевым признакам и/или сегментным переменным.

Графики масштабированного среднего отклонения.

Графика/визуализация

Графики, создаваемые в пакетном и интерактивном режимах: графики разброса, гистограммы, многомерные графики, круговые диаграммы, диаграммы с областями, пузырьковые диаграммы.

Удобный Java-мастер для построения графиков:

Заголовки и сноски.
Возможность применения к данным предложения WHERE.
Возможность выбора из нескольких цветовых схем.
Простота масштабирования осей.
Использование данных, полученных в результате анализа в пакете Enterprise Miner, для создания специализированных графиков.

Динамическая загрузка данных в клиентское приложение при помощи нескольких методик выборки.

Графики и таблицы интерактивно связаны между собой и поддерживают выполнение таких операций как очистка и связывание.

Удобное копирование данных и графиков в другие приложения, а также возможность их сохранения в виде файлов GIF или TIF.

Кластеризация

По выбору пользователя или автоматический - выбор k лучших кластеров.
Различные стратегии кодирования классовых переменных в процессе анализа.
Управление недостающими данными.
Графики профилей переменных сегментов, отражающие распределение исходных данных и других факторов в рамках каждого кластера.
Профиль дерева решений, использующий исходные данные для составления прогноза о принадлежности кластеру.
Оценочный код PMML.

Анализ рыночной корзины

Выявление ассоциаций и причинно-следственных связей:

Сетевой график правил, упорядоченный по степени достоверности.
Статистические графики подъема, достоверности, прогноза достоверности и поддержки правил.
Статистическая гистограмма частотных показателей в заданных границах поддержки и достоверности.
График зависимости разброса достоверности от прогнозируемой достоверности.
Таблица описания правил.
Сетевой график правил.

Органичная интеграция правил с другими исходными данными обеспечивает расширенное прогностическое моделирование.

Удобный вывод правил обеспечивает кластеризацию клиентов по их покупательным и поведенческим характеристикам.

Оценочный код PMML.

Анализ Web-активности

Масштабируемое и эффективное выявление наиболее популярных Интернет-маршрутов на основе анализа данных об Интернет-активности пользователей.
Выявление наиболее частых последовательностей в последовательных данных любого типа.

Уменьшение размерности

Выбор переменных:

Удаление переменных, не связанных с целевыми признаками, на основе критериев отбора хи-квадрат или R2.
Удаление переменных из иерархий.
Удаление переменных со многими недостающими значениями.
Сокращение числа классовых переменных с большим количеством уровней.
Группировка непрерывных исходных данных для выявления нелинейных взаимосвязей.
Выявление взаимодействий.

Главные компоненты:

Вычисление собственных значений и собственных векторов на основании матриц корреляции и ковариации.
Графики: масштабированное отклонение, логарифмические собственные значения, кумулятивные пропорциональные собственные значения.
Исследование выбранных основных компонентов при помощи методов предиктивного моделирования.

Исследование временных рядов:

Сокращение объемов транзакционных данных на основе формирования временных рядов с использованием разнообразных методов аккумуляции и преобразования.
Методы анализа включают сезонный анализ, анализ тенденций, анализ временных областей, сезонную декомпозицию.
Исследование сокращенных временных рядов при помощи методов кластерного и предиктивного моделирования.

Управление временными метриками при помощи описательных данных.

Утилита SAS Code Node

Обеспечивает запись кода SAS для упрощения сложных процедур подготовки и преобразования данных.
Позволяет использовать процедуры других продуктов SAS.
Поддерживает импорт внешних моделей.
Позволяет создавать собственные модели и узлы Enterprise Miner.
Содержит макропеременные, упрощающие ссылку на источники данных, переменные и т.п.
Имеет расширяемую логику формирования оценочного кода.

Исчерпывающие средства моделирования

Выбор моделей на базе обучающей, проверочной или тестовой выборки данных с использованием различных критериев, таких как: прибыли или убытки, AIC, SBC, среднеквадратичная ошибка, частота ошибок классификации, ROC, Джини, KS (Колмогорова-Смирнова).
Поддерживает двоичные, номинальные, порядковые и интервальные исходные данные и целевые признаки.
Удобный доступ к оценочному коду и всем источникам данных.
Отображение нескольких результатов в одном окне позволяет лучше оценить эффективность модели.

Регрессии

Линейная и логистическая.
Пошаговая, с прямой и обратной выборкой.
Построитель условий для уравнений: полиномиальных, основных взаимодействий, поддержка иерархии эффектов.
Перекрестная проверка.
Правила для иерархии эффектов.
Методы оптимизации: сопряженные градиенты, метод двойных ломаных, метод Ньютона-Рафсона с линейным или гребневым поиском, квазиньютоновский метод, метод доверительных областей.
Оценочный код PMML.

Деревья решений

Общая методология:

CHAID (автоматическое выявление взаимодействия по методу хи-квадрат).
Деревья классификации и регрессии.
C 4.5.
Отбор деревьев на основе целевых значений прибыльности или роста с соответствующим отсечением ветвей.

Критерии расщепления: вероятностный критерий хи-квадрат, вероятностный

F-критерий, критерий Джини, критерий энтропии, уменьшение дисперсии.

Автоматический вывод идентификаторов листьев дерева в качестве входных

значений для последующего моделирования.

Отображение правил на английском языке.

Вычисление значимости переменных для предварительного отбора.

Уникальное представление консолидированной диаграммы дерева.

Интерактивная работа с деревом на настольном ПК:

Интерактивное расширение и обрезание деревьев.
Задание специальных точек разбиения, включая двоичные или многовариантные разбиения.
Свыше 13 динамически связанных таблиц и графиков, позволяющих произвести более качественную оценку дерева.
Возможность распечатать диаграмму дерева на одном или нескольких листах.

В основе - новая быстрая процедура ARBORETUM.

Нейронные сети

Узел нейронной сети:

Гибкие архитектуры сетей с развитыми функциями комбинирования и активации.
10 методов обучения сети.
Предварительная оптимизация.
Автоматическая стандартизация входных параметров.
Поддержка направленных связей.

Узел самоорганизующейся нейронной сети:

Автоматизированное создание многоуровневых персептронов для поиска оптимальной конфигурации.
Выбор функций типа и активации из четырех различных типов архитектур.
Оценочный код PMML.

Узел нейронной сети анализа данных (DM Neural node):

Создание модели с уменьшением размерности и выбором функций.
Быстрое обучение сети.
Линейное и нелинейное оценивание.

Двухуровневое моделирование

Последовательное и параллельное моделирование для классовых и интервальных целевых признаков.
Выбор модели в виде дерева решений, регрессии или нейронной сети на каждом уровне.
Управление применением прогноза для классов к прогнозу интервалов.
Точная оценка экономической выгодности клиентов.

Методы вывода путем сопоставления

Метод отбора ближайших k-соседей для категоризации или прогноза наблюдений.
Запатентованные методы создания дерева и поиска с уменьшенной размерностью.

Множества моделей

Объединение прогнозов моделей для создания потенциально более сильного решения.
Среди методов: усреднение, мажоритарная выборка, выбор максимального значения.

Сравнение моделей

Сравнение нескольких моделей в рамках единой инструментальной оболочки для всех источников данных.
Автоматический выбор лучшей модели на основе заданного пользователем критерия.
Расширенная статистика соответствия и диагностики.
Ступенчатые диаграммы.
Кривые ROC.
Диаграммы прибылей и убытков с возможностью выбора решения.
Матрица неточностей (классификации).
График распределения вероятностных оценок классовых целевых признаков.
Ранжирование и распределение оценок интервальных целевых признаков.

Количественная оценка

Интерактивная количественная оценка узла в рамках графического интерфейса.
Автоматическая генерация оценочного кода на языках SAS, C, Java и PMML.
Моделирование сбора, кластеризации, преобразования и вычисления недостающих значений для оценочных кодов на языках SAS, C и Java.
Развертывание моделей в нескольких средах.

Инструментальные средства

Узел удаления переменных.
Узел слияния данных.
Узел метаданных, позволяющий изменять столбцы метаданных, например роль, уровень измерений и порядок.

Дальше >>

Бизнес-аналитика

Data Mining

Инструменты Data Mining. SAS Enterprise Miner

Распределенная система интеллектуального анализа данных, ориентированная на крупные предприятия

Основные характеристики пакета SAS Enterprise Miner 5.1

Вопросы и ответы

Студенты

Авторизоваться

Бизнес-аналитика

Data Mining

Инструменты Data Mining. SAS Enterprise Miner

Распределенная система интеллектуального анализа данных, ориентированная на крупные предприятия

Основные характеристики пакета SAS Enterprise Miner 5.1

Вопросы и ответы

Студенты