Санкт-Петербургский государственный университет
Опубликован: 17.08.2014 | Доступ: свободный | Студентов: 1910 / 861 | Длительность: 09:10:00
Лекция 3:

Обработка и хранение информации

Хранение данных при распределенной обработке

Распределенная обработка данных в обязательном порядке предполагает наличие банков и баз данных. Но база данных - это не место, куда просто складывают данные: ими нужно пользоваться, актуализировать, изменять форматы и связи и совершать множество других действий. Если бессистемно наполнять базу информацией, то через некоторое время ею невозможно будет пользоваться - времени на поиск нужных данных будет уходить всё больше и больше, пространство базы переполнится. В связи с этим данные необходимо "очищать" и структурировать, а для эффективной работы с ними необходимы системы управления работой баз данных (Data Base Management System - DBMS).

На сегодняшний день существует два основных подхода к архитектуре хранилищ данных [30]. Это так называемые корпоративная информационная фабрика Билла Инмона ( рис. 3.15) и хранилище данных с архитектурой шины Ральфа Кимболла ( рис. 3.16).

Корпоративная информационная фабрика Б. Инмона

Рис. 3.15. Корпоративная информационная фабрика Б. Инмона

Работа корпоративной информационной фабрики (Corporate Information Factory - CIF) начинается со скоординированного извлечения данных из источников. После этого загружается реляционная база данных, содержащая соответствующие очищенные и согласованные ("атомарные") данные. Получившееся нормализованное хранилище используется для того, чтобы наполнить информацией дополнительные репозитории презентационных данных, т.е. данных, подготовленных для анализа.

Эти репозитории, в частности, включают специализированные хранилища для изучения и добычи данных на базе применения технологий извлечения полезной информации из "сырых данных" (Data Mining - DM). После этого основной и, в случае необходимости, дополнительные репозитории используются для формирования витрин данных (Data Mart).

Хранилище данных с архитектурой шины Р. Кимболла

Рис. 3.16. Хранилище данных с архитектурой шины Р. Кимболла

При таком сценарии конечные витрины данных создаются для обслуживания бизнес-отделов или для реализации бизнес-функций и используют пространственную модель для структурирования суммарных данных. Атомарные данные остаются доступными через нормализованное хранилище данных. Очевидно, что структура атомарных и суммарных данных при таком подходе существенно различается.

Таким образом, в качестве отличительных характеристик подхода Б.Инмона к архитектуре распределенных корпоративных информационных хранилищ данных можно назвать следующие:

  • использование реляционной модели организации атомарных данных и пространственной - для организации суммарных данных;
  • использование итеративного или "спирального" подхода при создании больших хранилищ данных, т.е. "строительство" не сразу, а по частям. Это позволяет при необходимости вносить изменения в небольшие блоки данных или программных кодов и избавляет от необходимости перепрограммировать значительные объемы данных. То же самое можно сказать и о потенциальных ошибках: они также будут локализованы в пределах сравнительно небольшого массива без риска испортить все данные хранилища разом;
  • организации атомарных данных, что обеспечивает высокую степень детальности интегрированных данных и, соответственно, предоставляет корпорациям широкие возможности для манипулирования ими и изменения формата и способа представления данных по мере необходимости;
  • хранилище данных - не является механической коллекцией разрозненных витрин данных - это концептуально и физически целостный объект.

Альтернативным подходом к архитектуре хранилищ данных, является подход Р. Кимболла - хранилище с архитектурой шины (Data Warehouse Bus - DWB) ( рис. 3.16). В этой модели первичные данные преобразуются в информацию, пригодную для использования, на этапе подготовки данных. При этом обязательно принимаются во внимание требования к скорости обработки информации и качеству данных.

Как и в модели Б.Инмона, подготовка данных начинается со скоординированного извлечения данных из источников. Ряд операций совершается централизованно, например, поддержание и хранение общих справочных данных, другие действия могут быть распределенными - в зависимости от поступившего запроса.

Область представления пространственно структурирована, при этом она может быть централизованной или распределенной. Пространственная модель хранилища данных содержит ту же атомарную информацию, что и нормализованная модель Б. Инмона, но информация структурирована по-другому, чтобы облегчить ее использование и выполнение запросов.

Эта модель включает как атомарные данные, так и обобщающую информацию (агрегаты в связанных таблицах или многомерных кубах) в соответствии с требованиями производительности или пространственного распределения данных с заданным уровнем декомпозиции агрегатов. В связи с этим запросы в процессе выполнения могут обращаются к всё более низкому уровню детализации без дополнительного перепрограммирования со стороны пользователей или разработчиков приложения.

В отличие от CIF-подхода Инмона, здесь пространственные модели строятся для обслуживания динамичных бизнес-процессов (которые, в свою очередь, связаны с бизнес-показателями или бизнес-событиями), а не статичных бизнес-отделов. Например, все данные, которые должны быть доступны для общекорпоративного использования, вносятся в пространственное хранилище данных только один раз, в отличие от CIF-подхода, в котором их пришлось бы трижды копировать в витрины данных разных отделов. После того, как в хранилище появляется информация об основных бизнес-процессах, консолидированные пространственные модели могут выдавать их перекрестные характеристики. Матрица корпоративного хранилища данных с архитектурой шины с коммутацией, построенной по технологии "звезда" выявляет и усиливает связи между текущими количественными и качествами показателями бизнес-процессов (фактами) и их описательными атрибутами (метриками).

В качестве оригинальных особенностей подхода Р.Кимболла можно отметить следующее:

  • использование двухуровневой архитектуры, которая включает стадию подготовки данных, недоступную для конечных пользователей, и хранилище данных с архитектурой шины как таковое. В состав последнего входят несколько витрин атомарных данных, несколько витрин агрегированных данных и персональная витрина данных. Заметим, что оно не содержит одного физически целостного или централизованного хранилища данных - это даёт известную гибкость при использовании данных;
  • использование пространственной модели организации данных с архитектурой "звезда" (Star Scheme).

Таким образом, хранилище данных с архитектурой шины обладает следующими характеристиками - такое хранилище:

  • является пространственным;
  • включает как данные о транзакциях, так и суммарные данные;
  • включает витрины данных, посвященные только одной предметной области или имеющие только одну таблицу фактов (Fact Table);
  • может содержать множество витрин данных в пределах одной базы данных, отражающих показатели бизнес-процессов.

Хранилище данных Р.Кимболла не является единым физическим репозиторием (в отличие от подхода Б.Инмона). Это виртуальное хранилище - коллекция витрин данных, каждая из которых имеет архитектуру типа "звезда".

Схема типизированного корпоративного хранилища данных

Рис. 3.17. Схема типизированного корпоративного хранилища данных

На рис. 3.17 показана схема типизированного корпоративного хранилища данных. Вопросы его проектирования, выбора архитектуры, реализации в том или ином виде (CIF или DWB) - это серьезный проект корпоративного масштаба, охватывающий все отделы и обслуживающий нужды всех пользователей корпорации.