Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный
Лекция 20:

Процесс Data Mining. Построение и использование модели

Виды моделей

Построенные модели могут иметь различную сложность. Сложность построенной модели зависит от используемых методов, а также от сложности объекта, который анализируется.

Под сложным объектом понимается объект сложной структуры, который характеризуется большим количеством входных переменных, изменчивостью внутренней структуры и внешних факторов, нелинейностью взаимосвязей и др.

Классификация типов моделей в зависимости от характерных свойств, присущих изучаемому объекту или системе, такова

  1. динамические (системы, изменяющиеся во времени) и статические;
  2. стохастические и детерминированные;
  3. непрерывные и дискретные;
  4. линейные и нелинейные;
  5. статистические; экспертные; модели, основанные на методах Data Mining;
  6. прогнозирующие (классификационные) и описательные.

Рассмотрим подробно прогнозирующие и описательные модели. Именно такое подразделение соответствует делению задач Data Mining на два класса: прогнозирующие и описательные.

Прогнозирующие и классификационные (predictive) модели.

Эти модели в явном виде содержат информацию для прогноза, т.е. позволяют прогнозировать числовые значения либо класс (категорию).

Модели, с помощью которых осуществляется прогноз числовых значений атрибутов, будем называть прогнозирующими. Прогнозирование новых значений осуществляется на основе известных (существующих) значений. Прогнозирующие модели Data Mining позволяют выявить особенности функционирования конкретного объекта и на их основе предсказывать будущее поведение объекта. При использовании моделирования (в отличие, например, от предположений, основанных на интуиции) взаимосвязи переменных могут быть оценены количественно, что позволяет выбрать наиболее точную модель и получить более надежный прогноз.

В отличие от классификации, в задачах прогнозирования целевыми являются непрерывные переменные.

Примеры прогнозирующих моделей - это модели линейной регрессии (простейшие модели ) и модели на основе нейронных сетей.

Модели, с помощью которых осуществляется прогнозирование класса объекта, будем называть классификационными.

Таким образом, с помощью описанных выше моделей решают задачи классификации и прогнозирования. Такое решение подразумевает двухэтапный процесс: создание модели и ее использование.

Создание моделей Data Mining этого типа означает поиск правил, которые объясняют зависимость выходных параметров от входных.

Примеры классификационных моделей - модели на основе деревьев решений, а также байесовский метод. При помощи классификационной модели решаются следующие задачи:

  • принадлежит ли новый клиент к одному из набора существующих классов;
  • подходит ли пациенту определенный курс лечения;
  • выявление групп ненадежных клиентов;
  • определение групп клиентов, которым следует рассылать каталог с новой продукцией.

Класс в этом случае является целевой (выходной) переменной модели.

Дескриптивные или описательные (descriptive) модели описывают общие закономерности предметной области. С помощью дескриптивных моделей решают задачи поиска ассоциативных правил, задачи кластеризации, группировки, обобщения.

Модели кластеризации используются для классификации объектов, при условии, что набор целевых классов неизвестен; они создают так называемые сегментированные модели.

При помощи модели кластеризации, например, решается задача разбиения клиентов фирмы на группы (кластеры) по критерию "близости".

Модели правил ассоциаций используются для нахождения закономерностей между связанными событиями в базах данных.

При помощи модели правил ассоциаций решается задача определения часто встречающихся наборов товаров.

Модели могут быть физическими, концептуальными, математическими, аналоговыми.

Рассмотрим, что же представляет собой математическая модель (ее также называют символической).

Михаил Щукин
Михаил Щукин
Россия, Москва, МТУСИ