НОУ ИНТУИТ | Data Mining. Лекция 26: Инструменты Oracle Data Mining и Deductor

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 22.04.2006 | Доступ: свободный | Студентов: 13294 / 2861 | Оценка: 4.27 / 3.83 | Длительность: 26:24:00

ISBN: 978-5-9556-0064-2

Тема: Базы данных

Специальности: Администратор баз данных

|

Вам нравится? Нравится 264 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Аналитическая платформа Deductor

Состав и назначение аналитической платформы Deductor (разработчик - компания BaseGroup Labs [115]). Deductor состоит из двух компонентов: аналитического приложения Deductor Studio и многомерного хранилища данных Deductor Warehouse [48] .

Архитектура системы Deductor представлена на рис. 26.1.

Рис. 26.1. Архитектура системы Deductor

Deductor Warehouse - многомерное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить непротиворечивость данных, их централизованное хранение и автоматически создает всю необходимую поддержку процесса анализа данных. Deductor Warehouse оптимизирован для решения именно аналитических задач, что положительно сказывается на скорости доступа к данным.

Deductor Studio - это программа, предназначенная для анализа информации из различных источников данных. Она реализует функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других источников, но наиболее оптимальным является их совместное использование.

Поддержка процесса от разведочного анализа до отображения данных

Deductor Studio позволяет пройти все этапы анализа данных. Схема на рис. 26.2 отображает процесс извлечения знаний из данных.

Рис. 26.2. Процесс извлечения знаний из данных в Deductor Studio

Рассмотрим этот процесс более детально.

На начальном этапе в программу загружаются или импортируются данные из какого-либо произвольного источника. Хранилище данных Deductor Warehouse является одним из источников данных. Поддерживаются также другие, сторонние источники:

текстовый файл с разделителями;
Microsoft Excel;
Microsoft Access;
Dbase;
CSV-файлы;
ADO-источники - позволяют получить информацию из любого ODBC-источника (Oracle, MS SQL, Sybase и прочее).

Обычно в программу загружаются не все данные, а какая-то выборка, необходимая для дальнейшего анализа.

После получения выборки можно получить подробную статистику по ней, посмотреть, как выглядят данные на диаграммах и гистограммах.

После такого разведочного анализа можно принимать решения о необходимости предобработки данных. Например, если статистика показывает, что в выборке есть пустые значения (пропуски данных), можно применить фильтрацию для их устранения.

Предобработанные данные далее подвергаются трансформации. Например, нечисловые данные преобразуются в числовые, что необходимо для некоторых алгоритмов. Непрерывные данные могут быть разбиты на интервалы, то есть производится их дискретизация.

К трансформированным данным применяются методы более глубокого анализа. На этом этапе выявляются скрытые зависимости и закономерности в данных, на основании которых строятся различные модели. Модель представляет собой шаблон, который содержит формализованные знания.

Последний этап - интерпретация - предназначен, чтобы из формализованных знаний получить знания на языке предметной области.

Дальше >>

Авторизоваться

Data Mining

Инструменты Oracle Data Mining и Deductor

Аналитическая платформа Deductor

Поддержка процесса от разведочного анализа до отображения данных

Вопросы и ответы