Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный
Лекция 20:

Процесс Data Mining. Построение и использование модели

Аннотация: В лекции рассматриваются этапы процесса Data Mining, связанные с построением, проверкой, оценкой, выбором и коррекцией моделей. Подробно исследуются понятия "модель" и "моделирование".
Ключевые слова: Data Mining, анализ предметной области, постановка задачи, модель, проверка модели, оценка, моделирование, анализ данных, информация, принятия решений, представление, аналитик, ПО, база данных, сложный объект, объект, динамическая система, прогнозирующая, класс, прогнозирующая модель, поиск, дескриптивная, предметной области, дескриптивная модель, математическая модель, отображение, экзогенные, эндогенные переменные, экзогенные переменные, функция, переменная, деление, конструирование, классификатор, базы данных, group, PMML, prediction model, markup, language, обучение без учителя, итерация, оценка модели, внутренние параметры, проверка , адекватность, адекватность модели, model, определение, множества, точность, объем выборки, специалист предметной области, ядро, атрибут, target, attribute, стоимость, отрезок, прибыль, расходы, затраты, ключ, адаптация, сочетания

В предыдущих двух лекциях мы рассмотрели такие этапы процесса Data Mining как анализ предметной области, постановка задачи и подготовка данных. В этой лекции мы уделим внимание оставшимся этапам процесса Data Mining, а именно:

  • построению модели ;
  • проверке и оценке моделей ;
  • выбору модели ;
  • применению модели ;
  • коррекции и обновлению модели.

Ключевым словом в названии всех этих этапов является понятие " модель ". В связи с этим необходимо уделить некоторое время определениям понятий " модель " и " моделирование ".

Моделирование

В широком смысле слова моделирование - это научная дисциплина, цель которой - изучение методов построения и использования моделей для познания реального мира.

Моделирование - единственный к настоящему времени систематизированный способ увидеть варианты будущего и определить потенциальные последствия альтернативных решений, что позволяет их объективно сравнивать [97].

Моделирование - достаточно популярный и эффективный метод исследования данных, который является основой анализа данных.

Существует огромное количество ситуаций, когда экспериментировать в реальной жизни не представляется возможным. В этих случаях как раз и применяется моделирование.

Моделирование как процесс представляет собой построение модели и изучение ее свойств, которые подобны наиболее важным, с точки зрения аналитика, свойствам исследуемых объектов.

Таким образом, при помощи моделирования изучаются свойства объектов путем исследования соответствующих свойств построенных моделей.

Моделирование есть метод, процесс и научная дисциплина.

Моделирование широко применяется при использовании методов Data Mining. Путем использования моделей Data Mining осуществляется анализ данных. При помощи моделей Data Mining обнаруживается полезная, ранее неизвестная, доступная интерпретации информация, используемая для принятия решений.

Модель представляет собой упрощенное представление о реальном объекте, процессе или явлении.

Создание и использование Data Mining модели является ключевым моментом для начала понимания, осмысления и прогнозирования тенденций анализируемого объекта.

Построение моделей Data Mining осуществляется с целью исследования или изучения моделируемого объекта, процесса, явления и получения новых знаний, необходимых для принятия решений. Использование моделей Data Mining позволяет определить наилучшее решение в конкретной ситуации.

Аналитик создает модель как подобие изучаемого объекта. Модели могут быть записаны в виде различных изображений, схем, математических формул и т.д. Схематический пример модели был рассмотрен в лекции, посвященной задаче классификации, в первом разделе курса.

Преимуществом использования моделей при исследованиях является простота модели в сравнении с исследуемым объектом. При этом модели позволяют выделить в объекте наиболее существенные факторы с точки зрения цели исследования, и не отвлекаться на маловажные детали.

Из последнего замечания следует, что модель обладает свойством неполноты, поскольку является по своему определению абстрактной.

Приведем простой пример. Пусть имеется база данных клиентов фирмы, содержащая информацию о доходах клиента, семейном положении, предпочтениях и т.д. На основании этой информации нужно определить, является ли определенный клиент потенциальным покупателем нового товара фирмы.

Строя модель, мы предполагаем, что выбор клиента будет определяться характеристиками, которые имеются в базе данных (и мы считаем их существенными для данной задачи). Однако на решение клиента могут оказывать влияние ряд других факторов (например, мода, влияние рекламы, появление на рынке аналогичных товаров других производителей). Эти факторы являются неучтенными. Следовательно, в процессе использования модели ее структура должна совершенствоваться путем уточнения факторов.

Герман Тарасов
Герман Тарасов
Россия, г. Москва
Артем Фролов
Артем Фролов
Россия, Москва, Московский Технический Университет Связи и Информатики