Рынок инструментов Data Mining
Классификация инструментов Data Mining
Рынок инструментов Data Mining определяется широтой этой технологии и вследствие этого - огромным многообразием программного обеспечения. Приведем классификацию инструментов Data Mining согласно KDnuggets: инструменты общего и специфического назначения; бесплатные и коммерческие инструменты.
Наиболее популярная группа инструментов содержит следующие категории:
- наборы инструментов;
- классификация данных;
- кластеризация и сегментация;
- инструменты статистического анализа;
- анализ текстов (Text Mining), извлечение отклонений (Information Retrieval (IR));
- инструменты визуализации.
Наборы инструментов. К этой категории относятся универсальные инструменты, которые включают методы классификации, кластеризации и предварительной подготовки данных. К этой группе относятся такие известные коммерческие инструменты как:
- Clementine (http://www.spss.com/clementine). Data Mining с использованием Clementine является бизнес-процессом, разработанным для минимизации времени решения задач. Clementine поддерживает процесс Data Mining: доступ к данным, преобразования, моделирование, оценивание и внедрение. При помощи Clementine Data Mining выполняется с методологией CRISP-DM.
- DBMiner 2.0 Enterprise (http://www.dbminer.com), мощный инструмент для исследования больших баз данных; использует Microsoft Сервер SQL 7.0 Plato.
- IBM Intelligent Miner for Data (http://www.ibm.com/software/data/iminer/fordata/). Инструмент предлагает последние Data Mining-методы, поддерживает полный Data Mining процесс: от подготовки данных до презентации результатов. Поддержка языков XML и PMML.
- KXEN (Knowledge eXtraction ENgines). Инструмент, работающий на основе теории Вапника (Vapnik) SVM. Решает задачи подготовки данных, сегментации, временных рядов и SVM-классификации.
- Oracle Data Mining (ODM) (http://otn.oracle.com/products/bi/9idmining.html). Инструмент обеспечивает GUI, PL/SQL-интерфейсы, Java-интерфейс. Используемые методы: байесовская классификация, алгоритмы поиска ассоциативных правил, кластерные методы, SVM и другие.
- Polyanalyst (http://www.megaputer.com/). Набор, обеспечивающий всесторонний Data Mining. Сейчас, помимо методов прежних версий, также включает анализ текстов, лес решений, анализ связей. Поддерживает OLE DB for Data Mining и DCOM-технологию.
- SAS Enterprise Miner (http://www.sas.com/). Интегрированный набор, который обеспечивает дружественный GUI. Поддерживается методология SEMMA.
- SPSS (http://www.spss.com/clementine/). Один из наиболее популярных инструментов, поддерживается множество методов Data Mining.
- Statistica Data Miner (http://www.StatSoft.com/). Инструмент обеспечивает всесторонний, интегрированный статистический анализ данных, имеет мощные графические возможности, управление базами данных, а также приложение разработки систем.
Примером российской разработки инструментального набора, кроме Polyanalyst, является пакет Deductor, при помощи которого в предыдущих лекциях были решены некоторые задачи. Deductor будет подробно рассмотрен в одной из последующих лекций.
Наиболее известный представитель свободно распространяемого набора инструментов - пакет Weka (http://www.cs.waikato.ac.nz/ml/weka/index.html). Weka представляет собой набор алгоритмов машинного обучения для решения реальных Data Mining-проблем. Weka написана на Java и запускается практически со всех платформ.
Вторая группа задач представлена инструментами, реализующими следующие решения:
- инструментарий для поиска ассоциативных правил;
- агенты;
- оценивание, регрессии и прогнозирование;
- анализ связей;
- последовательные шаблоны и временные ряды;
- инструменты BI (Business Intelligence), Database and OLAP software;
- инструменты преобразования и очистки данных;
- библиотеки, компоненты и инструментальные наборы для разработчиков создания встроенных приложений Data Mining;
- Web Mining: анализ поведения сайтов, XML mining;
- поиск на Web;
- Audio and Video Mining.
Некоторые из этих групп инструментов будут более детально рассмотрены далее.
Среди поставщиков Data Mining можно выделить ряд компаний, основная цель которых - консультирование по применению Data Mining. Одна из наиболее известных среди них - компания Two Crows.