Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки? Спасибо! |
Метаданные в хранилищах данных
Цель лекции
Изучив материал настоящей лекции, вы будете знать:
- что такое метаданные в хранилищах данных;
- функции метаданных в хранилище данных;
- элементы метаданных хранилища данных;
- классификацию метаданных хранилища данных;
- что такое модель метаданных для хранилища данных;
и научитесь:
- составлять описание метаданных фактов, измерений, источников данных;
- проектировать метаданные для хранилищ данных.
Литература: [2], [3], [27], [66], [68].
Метаданные
К сожалению, часто встречающееся на страницах компьютерной литературы определение метаданных — это "данные о данных" — более вносит путаницу в толкование термина " метаданных " (metadata), чем поясняет его смысл. Образное определение " Метаданные — это "тень данных", принадлежащее Б. Инмону и понятное ИТ-специалистам по ХД, также не вносит большой ясности.
Давайте попробуем уточнить смысл термина " метаданные ". метаданные есть в любой ИС с БД, будь то OLTP-система, система складирования данных или корпоративный портал. Чтобы осознать этот факт, нужно вспомнить о том, что любая ИС реализует "вопросно-ответное" отношение на конечном алфавите [62]. Метаданные позволяют пользователям понять, на какие вопросы может отвечать данная ИС.
С технической точки зрения метаданные — это совокупность спецификаций и данных, которая в целом дает ответы на вопросы, какова степень охвата предметной области в ИС, какие данные в ней представлены, какова архитектура системы и т.д.
В частности, метаданные содержат семантическую интерпретацию или толкование содержания элементов данных, циркулирующих в ИС. Но это далеко не все. В метаданные включается также описание вычислительной среды, предметных областей, информационной безопасности и многое другое, что непосредственно влияет на эффективность использования ИС, в первую очередь, конечными пользователями и разработчиками.
Далее под метаданными будет пониматься совокупность элементов данных и спецификаций, содержащих описание данных ИС и процессов их обработки.
Неоднозначность толкования термина " метаданные " определяется тем обстоятельством, что последние должны удовлетворить технические и семантические потребности всех групп пользователей ИС. Каждая группа пользователей имеет свои требования к метаданным.
Так, руководство компании (основные пользователи информационных систем руководителей) хочет знать, что оно может получить от системы, как быстро оно получит ответ на интересующий вопрос, и желательно – в терминах, понятных лицам, которые принимают решения. Руководство организации не имеет времени, да и не понимает, зачем ему изучать объемные инструкции по эксплуатации ИС (что совершенно правильно, поскольку руководство организации решает стратегические и тактические задачи организации, а не профессиональные задачи реализации автоматизированных информационных систем).
В то же время специалисты организации, например пользователи бухгалтерских систем, хотят, чтобы такая система "разговаривала" на их профессиональном языке, вплоть до того, что разработчики таких систем (как, например, 1С-бухгалтерия) оснащают свои системы специальным, формальным языком, понятным бухгалтерам. Следует заметить, что бухгалтеры вряд ли будут основательно изучать SQL.
Аналитиков компании занимают более сложные вопросы, в частности, о происхождении и достоверности данных. Руководство организации требует от них информации для поддержки принятия обоснованных решений. Цена ошибки может быть велика: значительные убытки или сорванные контракты.
Разработчиков приложений интересует информация о модели данных ИС для создания или внедрения дополнительных бизнес-приложений. Они хотят знать, что находится в таблицах БД системы и в каком формате.
Отображение столь многообразных интересов в метаданных порождает большое число элементов, которые составляют метаданные. Проектирование и разработка метаданных являются одной из самых сложных и трудоемких задач проектирования и разработки ИС.
Разработку метаданных можно отнести к ИТ-дисциплине, которую называют "управление данными". Решение задач управления данными часто возлагается на администраторов данных, которых не следует путать с администраторами БД и компьютерных сетей.
Нужно отметить, что некоторые принципы управления данными в ХД и БД OLTP-систем имеют существенные отличия. Так, например, характерный для OLTP-систем принцип, состоящий в том, что существует только одно правильно отображающее семантику определение данных в системе, не является верным для ХД. Это связано с различными временными горизонтами данных в системах, основанных на ХД.
При проектировании метаданных задача проектировщика ХД состоит в:
- идентификации объектов ХД и их атрибутов;
- идентификации источников данных;
- описании семантики данных источников и ХД;
- описании алгоритмов преобразования и агрегации данных;
- описании путей доступа к данным и т.п.
Весь этот комплекс вопросов, которые должен решить проектировщик ХД при проектировании метаданных, требует от него достаточно тщательной их проработки еще на начальных стадиях проектирования. Проектирование ХД должно начинаться с проектирования метаданных и заканчиваться им же.
Рассмотрим основные функции метаданных и их состав, характерный для ХД.
Функции метаданных в хранилище данных
Роль метаданных для ХД значительно важнее, чем в системах операционной обработки данных. Если в системах операционной обработки данных интерфейс системы настроен на бизнес-процедуры обработки данных конкретными специалистами и понятен им после специального обучения, то интерфейс систем складирования данных конструируется таким образом, чтобы помимо всего прочего отвечать на непредопределенные вопросы (ad hoc). Как правило, такие вопросы формулируются в терминах предметной области и бизнес-процессов, к тому же специалистами, для которых ИТ-технологии не являются основной профессией: аналитиками, менеджерами среднего и высшего уровня.
Таким образом, одним из главных аспектов использования метаданных в ХД является их предметная ориентация. Основные вопросы, на которые должны ответить метаданные, — это какие данные представлены в системе и как их получить в нужном для анализа данных виде.
Первой основной функцией метаданных в ХД является представление соответствия данных источников и данных ХД. Как правило, это описание представляет собой фиксацию взаимосвязи атрибутов данных источника и атрибутов данных ХД, правила преобразования первых во вторые, изменение в наименовании данных, в их физических характеристиках и т. д.
Такая информация позволяет идентифицировать источники данных для ХД, правильность данных в ХД и их корректность.
Вторая основная функция метаданных в ХД — управление данными во времени. Время жизни данных в ХД, как правило, 5-10 лет, а то и более. А для систем операционной обработки данных время жизни данных — от нескольких дней до нескольких месяцев. Затем данные архивируются в случае необходимости.
Таким образом, временной горизонт данных в ХД гораздо больше, и это обстоятельство изменяет коренным образом некоторые принципы управления данными. Например, в системах операционной обработки данных в одно и то же время существует только одно корректное определение данных. Для ХД это не так.
Структура данных (схема или модель данных) в системах операционной обработки данных меняется во времени, т.е. данные в таких системах в разное время имеют различные формы представления. Хронология таких изменений должна быть зафиксирована в ХД.
Таким образом, в ХД в одно и то же время может существовать несколько схем данных, отвечающих различным периодам эволюции источников данных. Запись о таких структурных изменениях сохраняется в метаданных ХД. На основании записей аналитики получают ответы на вопросы, какими данными и за какие периоды они располагают.
Третья, и немаловажная, функция метаданных в ХД — это поддержка версионности. Эта функция тесно связана с управлением данными с большим временным горизонтом. Метаданные должны отражать изменения внутренней структуры данных источников и, следовательно, должны сами изменяться, для того чтобы обеспечить непрерывность истории изменения структуры данных ХД.
Таким образом, поддержка версионности метаданных позволяет в каждый момент времени в прошлом обеспечить правильное описание модели данных, а аналитики получают возможность знать, какие данные, когда и как попали в ХД.
Четвертая основная функция метаданных в ХД — это интерпретация данных в терминах бизнес-пользователей. Метаданные должны поддерживать в запросах понятную для пользователя терминологию, независимо от того, какие правила наименования атрибутов были использованы проектировщиком ХД.
Пятая основная функция метаданных — обеспечение открытости (доступности другим информационным системам) системы складирования данных для ее интеграции с другими аналитическими системами организации. Опрос метаданных ХД другой системой позволяет последней выяснить структуру данных ХД и поддерживать обмен данными между системами.
На рис. 14.1 просуммированы основные функции метаданных для ХД.