Обработка и хранение информации
Хранение данных при распределенной обработке
Распределенная обработка данных в обязательном порядке предполагает наличие банков и баз данных. Но база данных - это не место, куда просто складывают данные: ими нужно пользоваться, актуализировать, изменять форматы и связи и совершать множество других действий. Если бессистемно наполнять базу информацией, то через некоторое время ею невозможно будет пользоваться - времени на поиск нужных данных будет уходить всё больше и больше, пространство базы переполнится. В связи с этим данные необходимо "очищать" и структурировать, а для эффективной работы с ними необходимы системы управления работой баз данных (Data Base Management System - DBMS).
На сегодняшний день существует два основных подхода к архитектуре хранилищ данных [30]. Это так называемые корпоративная информационная фабрика Билла Инмона ( рис. 3.15) и хранилище данных с архитектурой шины Ральфа Кимболла ( рис. 3.16).
Работа корпоративной информационной фабрики (Corporate Information Factory - CIF) начинается со скоординированного извлечения данных из источников. После этого загружается реляционная база данных, содержащая соответствующие очищенные и согласованные ("атомарные") данные. Получившееся нормализованное хранилище используется для того, чтобы наполнить информацией дополнительные репозитории презентационных данных, т.е. данных, подготовленных для анализа.
Эти репозитории, в частности, включают специализированные хранилища для изучения и добычи данных на базе применения технологий извлечения полезной информации из "сырых данных" (Data Mining - DM). После этого основной и, в случае необходимости, дополнительные репозитории используются для формирования витрин данных (Data Mart).
При таком сценарии конечные витрины данных создаются для обслуживания бизнес-отделов или для реализации бизнес-функций и используют пространственную модель для структурирования суммарных данных. Атомарные данные остаются доступными через нормализованное хранилище данных. Очевидно, что структура атомарных и суммарных данных при таком подходе существенно различается.
Таким образом, в качестве отличительных характеристик подхода Б.Инмона к архитектуре распределенных корпоративных информационных хранилищ данных можно назвать следующие:
- использование реляционной модели организации атомарных данных и пространственной - для организации суммарных данных;
- использование итеративного или "спирального" подхода при создании больших хранилищ данных, т.е. "строительство" не сразу, а по частям. Это позволяет при необходимости вносить изменения в небольшие блоки данных или программных кодов и избавляет от необходимости перепрограммировать значительные объемы данных. То же самое можно сказать и о потенциальных ошибках: они также будут локализованы в пределах сравнительно небольшого массива без риска испортить все данные хранилища разом;
- организации атомарных данных, что обеспечивает высокую степень детальности интегрированных данных и, соответственно, предоставляет корпорациям широкие возможности для манипулирования ими и изменения формата и способа представления данных по мере необходимости;
- хранилище данных - не является механической коллекцией разрозненных витрин данных - это концептуально и физически целостный объект.
Альтернативным подходом к архитектуре хранилищ данных, является подход Р. Кимболла - хранилище с архитектурой шины (Data Warehouse Bus - DWB) ( рис. 3.16). В этой модели первичные данные преобразуются в информацию, пригодную для использования, на этапе подготовки данных. При этом обязательно принимаются во внимание требования к скорости обработки информации и качеству данных.
Как и в модели Б.Инмона, подготовка данных начинается со скоординированного извлечения данных из источников. Ряд операций совершается централизованно, например, поддержание и хранение общих справочных данных, другие действия могут быть распределенными - в зависимости от поступившего запроса.
Область представления пространственно структурирована, при этом она может быть централизованной или распределенной. Пространственная модель хранилища данных содержит ту же атомарную информацию, что и нормализованная модель Б. Инмона, но информация структурирована по-другому, чтобы облегчить ее использование и выполнение запросов.
Эта модель включает как атомарные данные, так и обобщающую информацию (агрегаты в связанных таблицах или многомерных кубах) в соответствии с требованиями производительности или пространственного распределения данных с заданным уровнем декомпозиции агрегатов. В связи с этим запросы в процессе выполнения могут обращаются к всё более низкому уровню детализации без дополнительного перепрограммирования со стороны пользователей или разработчиков приложения.
В отличие от CIF-подхода Инмона, здесь пространственные модели строятся для обслуживания динамичных бизнес-процессов (которые, в свою очередь, связаны с бизнес-показателями или бизнес-событиями), а не статичных бизнес-отделов. Например, все данные, которые должны быть доступны для общекорпоративного использования, вносятся в пространственное хранилище данных только один раз, в отличие от CIF-подхода, в котором их пришлось бы трижды копировать в витрины данных разных отделов. После того, как в хранилище появляется информация об основных бизнес-процессах, консолидированные пространственные модели могут выдавать их перекрестные характеристики. Матрица корпоративного хранилища данных с архитектурой шины с коммутацией, построенной по технологии "звезда" выявляет и усиливает связи между текущими количественными и качествами показателями бизнес-процессов (фактами) и их описательными атрибутами (метриками).
В качестве оригинальных особенностей подхода Р.Кимболла можно отметить следующее:
- использование двухуровневой архитектуры, которая включает стадию подготовки данных, недоступную для конечных пользователей, и хранилище данных с архитектурой шины как таковое. В состав последнего входят несколько витрин атомарных данных, несколько витрин агрегированных данных и персональная витрина данных. Заметим, что оно не содержит одного физически целостного или централизованного хранилища данных - это даёт известную гибкость при использовании данных;
- использование пространственной модели организации данных с архитектурой "звезда" (Star Scheme).
Таким образом, хранилище данных с архитектурой шины обладает следующими характеристиками - такое хранилище:
- является пространственным;
- включает как данные о транзакциях, так и суммарные данные;
- включает витрины данных, посвященные только одной предметной области или имеющие только одну таблицу фактов (Fact Table);
- может содержать множество витрин данных в пределах одной базы данных, отражающих показатели бизнес-процессов.
Хранилище данных Р.Кимболла не является единым физическим репозиторием (в отличие от подхода Б.Инмона). Это виртуальное хранилище - коллекция витрин данных, каждая из которых имеет архитектуру типа "звезда".
На рис. 3.17 показана схема типизированного корпоративного хранилища данных. Вопросы его проектирования, выбора архитектуры, реализации в том или ином виде (CIF или DWB) - это серьезный проект корпоративного масштаба, охватывающий все отделы и обслуживающий нужды всех пользователей корпорации.