Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный
Лекция 26:

Инструменты Oracle Data Mining и Deductor

< Лекция 25 || Лекция 26: 12345 || Лекция 27 >

Прогнозирующие модели

Краткая характеристика алгоритмов классификации

Алгоритмы Naive Bayes (NB):

  • Работает быстрее, чем ABN (по времени построения модели).
  • Этот алгоритм лучше использовать для числа атрибутов < 200.
  • Точность алгоритма меньше, чем в ABN.

Adaptive Bayes Network (ABN):

  • Этот алгоритм лучше для большого числа атрибутов.
  • Наглядность модели (генерация правил).
  • Более точные модели, чем в NB.
  • Больше параметров настройки.

Support Vector Machine.

Регрессия

Регрессия применяется для прогнозирования непрерывных величин. Простейшим случаем является линейная регрессия. Используется также метод Support Vector Machine.

Поиск существенных атрибутов

Основная задача - выявление атрибутов, наиболее важных для прогнозирования целевых значений. Используется для ускорения процесса построения классификационной модели.

Используемый алгоритм - Minimum Descriptor Length (MDL).

Дескрипторные модели

Алгоритмы кластеризации

Алгоритм Enhanced k-means Clustering

В этом алгоритме число кластеров изначально задается пользователем. Кластеризация проводится только по числовым атрибутам, их число не должно быть слишком велико. Количество записей может быть каким угодно.

Алгоритм O-Cluster

Этот алгоритм, в отличие от предыдущего, автоматически определяет число кластеров. Он может работать как с числовыми, так и с категориальными атрибутами. Может работать с большим числом атрибутов, т.е. более 10, и с большим количеством записей, более 1000.

< Лекция 25 || Лекция 26: 12345 || Лекция 27 >
Михаил Щукин
Михаил Щукин
Россия, Москва, МТУСИ