Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный
Лекция 4:

Задачи Data Mining. Информация и знания

< Лекция 3 || Лекция 4: 12345 || Лекция 5 >

От данных к решениям

Для начала рассмотрим первый поток. На рис. 4.1.показана связь понятий "данные", "информация" и "решения", которая возникает в процессе принятия решений.

Решения, информация и данные

Рис. 4.1. Решения, информация и данные

Как видно из рисунка, данный процесс является циклическим. Принятие решений требует информации, которая основана на данных. Данные обеспечивают информацию, которая поддерживает решения, и т.д.

Рассмотренные понятия являются составной частью так называемой информационной пирамиды, в основании которой находятся данные, следующий уровень - это информация, затем идет решение, завершает пирамиду уровень знания. По мере продвижения вверх по информационной пирамиде объемы данных переходят в ценность решений, т.е. ценность для бизнеса. А, как известно, целью Business Intelligence является преобразование объемов данных в ценность бизнеса.

От задачи к приложению

Теперь подойдем к этому же процессу с другой стороны. Рассмотрим рис. 4.2. По словам авторов [17], он не претендует на полноту, зато отображает все уровни, которые затрагивает Data Mining.

Задачи, действия, приложения

Рис. 4.2. Задачи, действия, приложения

Следует отметить, что уровни анализа (данные, информация, знания ) практически соответствуют этапам эволюции анализа данных, которая происходила на протяжении последних лет.

Верхний - уровень приложений - является уровнем бизнеса (если мы имеем дело с задачей бизнеса), на нем менеджеры принимают решения. Приведенные примеры приложений: перекрестные продажи, контроль качества, удерживание клиентов.

Средний - уровень действий - по своей сути является уровнем информации, именно на нем выполняются действия Data Mining; на рисунке приведены такие действия: прогностическое моделирование (было рассмотрено в предыдущей лекции), анализ связей, сегментация данных и другие.

Нижний - уровень определения задачи Data Mining, которую необходимо решить применительно к данным, имеющимся в наличии; на рисунке приведены задачи предсказания числовых значений, классификация, кластеризация, ассоциация.

Рассмотрим таблицу, демонстрирующую связь этих понятий.

Таблица 4.1. Уровни Data Mining
уровень 3 приложения удержание клиентов знания Data Mining результат
уровень 2 действия прогностическое моделирование информация метод анализа
уровень 1 задачи классификация данные запросы

Напомним, что для решения задачи классификации результаты работы первой стадии (индукции правил) используются для отнесения нового объекта, с определенной уверенностью, к одному из известных, предопределенных классов на основании известных значений.

Рассмотрим задачу удержания клиентов (определения надежности клиентов фирмы).

Первый уровень. Данные - база данных по клиентам. Есть данные о клиенте (возраст, пол, профессия, доход). Определенная часть клиентов, воспользовавшись продуктом фирмы, осталась ей верна; другие клиенты больше не приобретали продукты фирмы. На этом уровне мы определяем тип задачи - это задача классификации.

На втором уровне определяем действие - прогностическое моделирование. С помощью прогностического моделирования мы с определенной долей уверенности можем отнести новый объект, в данном случае, нового клиента, к одному из известных классов - постоянный клиент, или это, скорее всего, его разовая покупка.

На третьем уровне мы можем воспользоваться приложением для принятия решения. В результате приобретения знаний, фирма может существенно снизить расходы, например, на рекламу, зная заранее, каким из клиентов следует активно рассылать рекламные материалы.

Таким образом, на протяжении нескольких лекций мы определились с понятиями "данные", "задачи", "методы", "действия".

< Лекция 3 || Лекция 4: 12345 || Лекция 5 >
Руслан Рекун
Руслан Рекун
Россия, г. Краснодар
Анна Анисимова
Анна Анисимова
Россия, Москва, МГУ имени М.В. Ломоносова, 2009