Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный
Лекция 20:

Процесс Data Mining. Построение и использование модели

Математическая модель

Математическая модель объекта - это его отображение в виде совокупности уравнений, неравенств, логических отношений, графиков и т.д.

При помощи математической модели создается образ исследуемого объекта/системы, выраженный в математических формулах с целью изучения определенных свойств данного объекта. После построения математической модели необходимо наполнить ее данными и провести соответствующие расчеты.

При построении модели следует определить экзогенные и эндогенные переменные.

Экзогенные переменные - переменные, которые задаются вне модели, они известны заранее.

Эндогенные переменные - переменные, которые определяются по ходу расчетов в модели, они не задаются извне.

Далее описывается формализация условий задачи и целевая функция, если она имеется.

Наиболее простое формальное описание модели выражается через функциональную зависимость:

Y=f(x1,...,xn),

где x1,...,xn - независимые переменные, Y - зависимая или целевая переменная.

Более сложное описание модели выглядит следующим образом:

Y=f(x1,...,xn,z1,...,zr,w1,...,ws),

где x1,...,xn - независимые переменные, являющиеся внутренними свойствами изучаемого объекта;

z1,...,zr - независимые переменные, являющиеся внешними факторами, влияющими на изучаемый объект;

w1,...,ws - неучтенные свойства или факторы.

Y - зависимая или целевая переменная.

Необходимо по возможности выяснить все закономерности между целевой переменной и всеми учитываемыми факторами. В результате будет составлена математическая модель, в которой следует отображать те переменные и факторы, которые являются существенными для решения поставленной задачи.

Следует также помнить, что данные, на основе которых строится модель, практически всегда содержат ошибки, поэтому математическая модель является лишь приближенным описанием свойств изучаемого объекта.

В случаях, когда зависимость неизвестна, задача аналитика заключается в том, чтобы определить эту функциональную зависимость. Большинство задач Data Mining относятся как раз к подобной категории задач.

Михаил Щукин
Михаил Щукин
Россия, Москва, МТУСИ