Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный
Лекция 23:

Инструменты Data Mining. SAS Enterprise Miner

< Лекция 22 || Лекция 23: 1234 || Лекция 24 >

Распределенная система интеллектуального анализа данных, ориентированная на крупные предприятия

Пакет SAS Enterprise Miner может быть развернут с использованием Web-портала для тонких клиентов, что обеспечивает удобный доступ к пакету для множества пользователей при минимальных затратах на обслуживание клиентских программ. Пакет SAS Enterprise Miner поддерживает серверные системы Windows, а также различные UNIX~платформы. Технические характеристики пакета изложены в конце этой лекции.

Основные характеристики пакета SAS Enterprise Miner 5.1

Интерфейсы

Простой графический интерфейс, создающий диаграммы процессов обработки данных:

  • Быстрое создание большого числа качественных моделей.
  • Возможность доступа через Web-интерфейс.
  • Доступ к среде программирования SAS.
  • Возможность обмена диаграммами в формате XML.
  • Возможность повторного использования диаграмм в качестве шаблонов для других проектов и пользователей.

Пакетная обработка:

  • Включает в себя все те же возможности, что и графический интерфейс.
  • Основана на языке SAS macro.

Экспериментальный интерфейс Java API.

Репозитарий моделей с Web-интерфейсом:

  • Управление большими портфелями моделей.
  • Поиск моделей по заданному алгоритму, целевой переменной и т.п.
  • Публикация результатов в виде ступенчатых диаграмм, деревьев и скоринг-кодов, удобных для специалистов в области бизнеса и анализа данных.

Масштабируемая обработка

  • Серверная обработка - обучение модели в асинхронном режиме. Аккуратная остановка обработки (по заданным критериям).
  • Параллельная обработка - одновременный запуск нескольких диаграмм или инструментов.
  • Многопоточные прогностические алгоритмы.
  • Все хранение и обработка данных - на серверах.

Доступ к данным

Доступ более чем к 50 различным файловым структурам.

Интеграция с пакетом SAS ETL Studio посредством SAS Metadata Server:

  • SAS ETL Studio можно использовать для определения исходных, обучающих таблиц для пакета Enterprise Miner.
  • SAS ETL Studio можно использовать для извлечения и развертывания скоринг-кода пакета Enterprise Miner.

Выборки

  • Простая случайная.
  • Стратифицированная.
  • Взвешенная.
  • Кластерная.
  • Систематическая.
  • Первые N наблюдений.
  • Выборка редких событий.

Разбивка данных

  • Создание обучающих, проверочных и тестовых наборов данных.
  • Обеспечение качественного обобщения моделей на основании контрольных данных.
  • Стандартная стратификация по целевому классу.
  • Сбалансированная разбивка по любой классовой переменной.

Преобразования

  • Простые: логарифмическое, квадратный корень, обратное, квадратичное, экспоненциальное, стандартизованное.
  • Накопительные: bucketed (с разбивкой по областям), квантильное, оптимизированная разбивка по взаимосвязи с целевымм значениями.
  • Оптимизированные: максимизация нормализации, максимизация корреляции с целевыми значениями, выравнивание распределения по целевым уровням.

Фильтрация недостоверных данных

  • Применение различных распределительных порогов, позволяющих исключить значения из экстремальных интервалов.
  • Объединение классовых значений, встречающихся менее n раз.

Замена данных

  • С использованием мер центрированности.
  • На основе распределения.
  • Заполнение дерева суррогатными значениями.
  • Методом усреднения расстояний.
  • С использованием устойчивых M-оценок.
  • С использованием стандартных констант.

Описательная статистика

Одномерные статистические таблицы и графики:

  • Интервальные переменные n, среднее, медиана, минимум, максимум, стандартное отклонение, масштабированное отклонение и процент отсутствия.
  • Классовые переменные число категорий, счетчики, модальные, процентные модальные, процент отсутствия.
  • Графики распределения.
  • Статистическая разбивка для каждого уровня целевых классов.

Двумерные статистические таблицы и графики:

  • Упорядоченные графики корреляции Пирсона и Спирмана.
  • Упорядоченный график хи-квадрат с возможностью группировки непрерывных исходных данных по n группам.
  • График коэффициентов вариации.

Отбор переменных по logworth-критерию.

Другие интерактивные графики:

  • "Тепловые" карты, отражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.
  • Графики стоимости переменных, ранжирующие первоначальные значения на основании их стоимости по целевому признаку.
  • Распределения классовых переменных по целевым признакам и/или сегментным переменным.

Графики масштабированного среднего отклонения.

Графика/визуализация

Графики, создаваемые в пакетном и интерактивном режимах: графики разброса, гистограммы, многомерные графики, круговые диаграммы, диаграммы с областями, пузырьковые диаграммы.

Удобный Java-мастер для построения графиков:

  • Заголовки и сноски.
  • Возможность применения к данным предложения WHERE.
  • Возможность выбора из нескольких цветовых схем.
  • Простота масштабирования осей.
  • Использование данных, полученных в результате анализа в пакете Enterprise Miner, для создания специализированных графиков.

Динамическая загрузка данных в клиентское приложение при помощи нескольких методик выборки.

Графики и таблицы интерактивно связаны между собой и поддерживают выполнение таких операций как очистка и связывание.

Удобное копирование данных и графиков в другие приложения, а также возможность их сохранения в виде файлов GIF или TIF.

Кластеризация

  • По выбору пользователя или автоматический - выбор k лучших кластеров.
  • Различные стратегии кодирования классовых переменных в процессе анализа.
  • Управление недостающими данными.
  • Графики профилей переменных сегментов, отражающие распределение исходных данных и других факторов в рамках каждого кластера.
  • Профиль дерева решений, использующий исходные данные для составления прогноза о принадлежности кластеру.
  • Оценочный код PMML.

Анализ рыночной корзины

Выявление ассоциаций и причинно-следственных связей:

  • Сетевой график правил, упорядоченный по степени достоверности.
  • Статистические графики подъема, достоверности, прогноза достоверности и поддержки правил.
  • Статистическая гистограмма частотных показателей в заданных границах поддержки и достоверности.
  • График зависимости разброса достоверности от прогнозируемой достоверности.
  • Таблица описания правил.
  • Сетевой график правил.

Органичная интеграция правил с другими исходными данными обеспечивает расширенное прогностическое моделирование.

Удобный вывод правил обеспечивает кластеризацию клиентов по их покупательным и поведенческим характеристикам.

Оценочный код PMML.

Анализ Web-активности

  • Масштабируемое и эффективное выявление наиболее популярных Интернет-маршрутов на основе анализа данных об Интернет-активности пользователей.
  • Выявление наиболее частых последовательностей в последовательных данных любого типа.

Уменьшение размерности

Выбор переменных:

  • Удаление переменных, не связанных с целевыми признаками, на основе критериев отбора хи-квадрат или R2.
  • Удаление переменных из иерархий.
  • Удаление переменных со многими недостающими значениями.
  • Сокращение числа классовых переменных с большим количеством уровней.
  • Группировка непрерывных исходных данных для выявления нелинейных взаимосвязей.
  • Выявление взаимодействий.

Главные компоненты:

  • Вычисление собственных значений и собственных векторов на основании матриц корреляции и ковариации.
  • Графики: масштабированное отклонение, логарифмические собственные значения, кумулятивные пропорциональные собственные значения.
  • Исследование выбранных основных компонентов при помощи методов предиктивного моделирования.

Исследование временных рядов:

  • Сокращение объемов транзакционных данных на основе формирования временных рядов с использованием разнообразных методов аккумуляции и преобразования.
  • Методы анализа включают сезонный анализ, анализ тенденций, анализ временных областей, сезонную декомпозицию.
  • Исследование сокращенных временных рядов при помощи методов кластерного и предиктивного моделирования.

Управление временными метриками при помощи описательных данных.

Утилита SAS Code Node

  • Обеспечивает запись кода SAS для упрощения сложных процедур подготовки и преобразования данных.
  • Позволяет использовать процедуры других продуктов SAS.
  • Поддерживает импорт внешних моделей.
  • Позволяет создавать собственные модели и узлы Enterprise Miner.
  • Содержит макропеременные, упрощающие ссылку на источники данных, переменные и т.п.
  • Имеет расширяемую логику формирования оценочного кода.

Исчерпывающие средства моделирования

  • Выбор моделей на базе обучающей, проверочной или тестовой выборки данных с использованием различных критериев, таких как: прибыли или убытки, AIC, SBC, среднеквадратичная ошибка, частота ошибок классификации, ROC, Джини, KS (Колмогорова-Смирнова).
  • Поддерживает двоичные, номинальные, порядковые и интервальные исходные данные и целевые признаки.
  • Удобный доступ к оценочному коду и всем источникам данных.
  • Отображение нескольких результатов в одном окне позволяет лучше оценить эффективность модели.

Регрессии

  • Линейная и логистическая.
  • Пошаговая, с прямой и обратной выборкой.
  • Построитель условий для уравнений: полиномиальных, основных взаимодействий, поддержка иерархии эффектов.
  • Перекрестная проверка.
  • Правила для иерархии эффектов.
  • Методы оптимизации: сопряженные градиенты, метод двойных ломаных, метод Ньютона-Рафсона с линейным или гребневым поиском, квазиньютоновский метод, метод доверительных областей.
  • Оценочный код PMML.

Деревья решений

Общая методология:

  • CHAID (автоматическое выявление взаимодействия по методу хи-квадрат).
  • Деревья классификации и регрессии.
  • C 4.5.
  • Отбор деревьев на основе целевых значений прибыльности или роста с соответствующим отсечением ветвей.

Критерии расщепления: вероятностный критерий хи-квадрат, вероятностный

F-критерий, критерий Джини, критерий энтропии, уменьшение дисперсии.

Автоматический вывод идентификаторов листьев дерева в качестве входных

значений для последующего моделирования.

Отображение правил на английском языке.

Вычисление значимости переменных для предварительного отбора.

Уникальное представление консолидированной диаграммы дерева.

Интерактивная работа с деревом на настольном ПК:

  • Интерактивное расширение и обрезание деревьев.
  • Задание специальных точек разбиения, включая двоичные или многовариантные разбиения.
  • Свыше 13 динамически связанных таблиц и графиков, позволяющих произвести более качественную оценку дерева.
  • Возможность распечатать диаграмму дерева на одном или нескольких листах.

В основе - новая быстрая процедура ARBORETUM.

Нейронные сети

Узел нейронной сети:

  • Гибкие архитектуры сетей с развитыми функциями комбинирования и активации.
  • 10 методов обучения сети.
  • Предварительная оптимизация.
  • Автоматическая стандартизация входных параметров.
  • Поддержка направленных связей.

Узел самоорганизующейся нейронной сети:

  • Автоматизированное создание многоуровневых персептронов для поиска оптимальной конфигурации.
  • Выбор функций типа и активации из четырех различных типов архитектур.
  • Оценочный код PMML.

Узел нейронной сети анализа данных (DM Neural node):

  • Создание модели с уменьшением размерности и выбором функций.
  • Быстрое обучение сети.
  • Линейное и нелинейное оценивание.

Двухуровневое моделирование

  • Последовательное и параллельное моделирование для классовых и интервальных целевых признаков.
  • Выбор модели в виде дерева решений, регрессии или нейронной сети на каждом уровне.
  • Управление применением прогноза для классов к прогнозу интервалов.
  • Точная оценка экономической выгодности клиентов.

Методы вывода путем сопоставления

  • Метод отбора ближайших k-соседей для категоризации или прогноза наблюдений.
  • Запатентованные методы создания дерева и поиска с уменьшенной размерностью.

Множества моделей

  • Объединение прогнозов моделей для создания потенциально более сильного решения.
  • Среди методов: усреднение, мажоритарная выборка, выбор максимального значения.

Сравнение моделей

  • Сравнение нескольких моделей в рамках единой инструментальной оболочки для всех источников данных.
  • Автоматический выбор лучшей модели на основе заданного пользователем критерия.
  • Расширенная статистика соответствия и диагностики.
  • Ступенчатые диаграммы.
  • Кривые ROC.
  • Диаграммы прибылей и убытков с возможностью выбора решения.
  • Матрица неточностей (классификации).
  • График распределения вероятностных оценок классовых целевых признаков.
  • Ранжирование и распределение оценок интервальных целевых признаков.

Количественная оценка

  • Интерактивная количественная оценка узла в рамках графического интерфейса.
  • Автоматическая генерация оценочного кода на языках SAS, C, Java и PMML.
  • Моделирование сбора, кластеризации, преобразования и вычисления недостающих значений для оценочных кодов на языках SAS, C и Java.
  • Развертывание моделей в нескольких средах.

Инструментальные средства

  • Узел удаления переменных.
  • Узел слияния данных.
  • Узел метаданных, позволяющий изменять столбцы метаданных, например роль, уровень измерений и порядок.
< Лекция 22 || Лекция 23: 1234 || Лекция 24 >
Михаил Щукин
Михаил Щукин
Россия, Москва, МТУСИ