Задачи Data Mining. Прогнозирование и визуализация
Прогнозирование и временные ряды
Основой для прогнозирования служит историческая информация, хранящаяся в базе данных в виде временных рядов.
Существует понятие Data Mining временных рядов (Time-Series Data Mining).
Подробно с этим понятием можно ознакомиться в [23].
На основе ретроспективной информации в виде временных рядов возможно решение различных задач Data Mining. На рис. 6.1 представлены результаты опроса относительно Data Mining временных рядов. Как видим, наибольший процент (23%) среди решаемых задач занимает прогнозирование. Далее идут классификация и кластеризация (по 14%), сегментация и выявление аномалий (по 9%), обнаружение правил (8%). На другие задачи приходится менее чем по 6%.
Однако чтобы сосредоточиться на понятии прогнозирования, мы будем рассматривать временные ряды лишь в рамках решения задачи прогнозирования.
Приведем два принципиальных отличия временного ряда от простой последовательности наблюдений:
- Члены временного ряда, в отличие от элементов случайной выборки, не являются статистически независимыми.
- Члены временного ряда не являются одинаково распределенными.
Временной ряд - последовательность наблюдаемых значений какого-либо признака, упорядоченных в неслучайные моменты времени.
Отличием анализа временных рядов от анализа случайных выборок является предположение о равных промежутках времени между наблюдениями и их хронологический порядок. Привязка наблюдений ко времени играет здесь ключевую роль, тогда как при анализе случайной выборки она не имеет никакого значения.
Типичный пример временного ряда - данные биржевых торгов.
Информация, накопленная в разнообразных базах данных предприятия, является временными рядами, если она расположена в хронологическом порядке и произведена в последовательные моменты времени.
Анализ временного ряда осуществляется с целью:
В процессе определения структуры и закономерностей временного ряда предполагается обнаружение: шумов и выбросов, тренда, сезонной компоненты, циклической компоненты. Определение природы временного ряда может быть использовано как своеобразная "разведка" данных. Знание аналитика о наличии сезонной компоненты необходимо, например, для определения количества записей выборки, которое должно принимать участие в построении прогноза.
Шумы и выбросы будут подробно обсуждаться в последующих лекциях курса. Они усложняют анализ временного ряда. Существуют различные методы определения и фильтрации выбросов, дающие возможность исключить их с целью более качественного Data Mining.