Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки? Спасибо! |
Проектирование и разработка процесса ETL
Моделирование процесса преобразования данных
Диаграмма преобразования данных
Объект ILM-диаграммы "Процесс преобразования" определяет список задач преобразования данных и поток управления преобразованием.
Построим диаграмму преобразования данных. Задача преобразования данных включает одну или несколько диаграмм преобразования данных, которые позволяют моделировать процессы извлечения данных из источников данных, преобразования данных и загрузки данных в источник назначения. Данные поступают из источников данных (data inputs), преобразуются посредством выполнения определенных манипуляций над ними и загружаются в источник назначения (data outputs). Последовательность этих процессов связывается вместе посредством потока данных (data flows), а сами данные представляются посредством колонок структуры данных, которые используются в каждом из перечисленных процессов.
На рис. 15.15, на диаграмме преобразования данных, показано, что данные извлекаются из БД Acme и Small Corp, затем объединяются в БД DataMerge, фильтруются фильтром DataFilter, сортируются процедурой DataSort и загружаются в БД Giant Corp.
Для каждого объекта нужно определить перечень колонок, который будет задействован в процессе преобразования на этом объекте. Эти действия выполняются на диалоговом окне " Data Projection Properties "" как показано на рис. 15.16.
Изображенная на рис. 15.15 диаграмма преобразования данных может быть развернута таким образом, чтобы видеть структуры данных на каждом элементе диаграммы, как показано на рис. 15.17.
Поток данных (стрелочки на диаграмме) передает данные между объектами диаграммы преобразования данных. Для определения потока данных может быть использован редактор отображения (Mapping Editor), как показано для потока данных между DataMerge и DataFilter на рис. 15.18.
Диаграмма управления потоком преобразования данных
Диаграммы управления потоком преобразования данных предназначены для моделирования последовательных или параллельных задач преобразования данных. Диаграмма управления потоком содержит одну или несколько диаграмм управления потоком преобразования, моделирующих порядок, в котором последовательность задач преобразования данных выполняется. Последовательность задач включает в себя инициализацию задачи (starts), выполнение задачи (task executions), решение (decisions), синхронизацию (synchronizations) и завершение задачи. Связанные вместе, они составляют поток управления.
На рис. 15.19 показана диаграмма управления потоком преобразования данных для нашего примера.
Пиктограмма инициализации задачи преобразования ( TransformationStart_1 ) инициирует выполнение последовательности задач преобразования данных на диаграмме управления потоком. Далее последовательно выполняются задачи "Объединить сотрудников" ( Merge Employe ) и "Объединить роли" ( Merge Role ). Решений никаких не принимается, синхронизация не выполняется. Процесс заканчивается выполнением задачи завершения процесса преобразования ( TransformationEnd_1 ).
Все построенные диаграммы связаны между собой на диаграмме высокого уровня ILM-модели (см. рис. 15.9) в объекте "Процесс преобразования" ( TransformationProcess_1 ). На рис. 15.20 и 10.21 соответственно изображены вкладки диалогового окна свойств этого объекта, на которых показана привязка задач преобразования и потока управления.
Таким образом, проектировщик ХД данных может моделировать ETL-процессы для разрабатываемого хранилища данных с помощью CASE-инструментов.
Заметим, что при изложении материала последнего раздела мы опустили многочисленные детали определения объектов и их свойств при проектировании модели ETL-процесса. Нашей задачей в данном случае является иллюстрация возможностей CASE-инструментов. Отметим также, что ведущие компании, производители комплексных решений для создания ХД, такие как IBM, Oracle, MicroSoft и ряд других, поставляют встроенные средства для проектирования ETL-процессов. Поэтому проектировщику ХД будет необходимо ознакомиться с возможностями таких инструментов после выбора несущей СУБД.
Резюме
Таким образом, разработка ETL-процесса включает в себя следующие основные стадии:
- планирование ETL-процесса ;
- конструирование процесса заполнения таблиц измерений;
- конструирование процесса заполнения таблиц фактов;
- извлечение данных ;
- преобразование и очистка данных ;
- загрузка данных.
При проектировании процессов преобразования данных проектировщик ХД должен решить следующие задачи:
- проанализировать требования к данным ХД;
- проанализировать и описать источники данных для ХД;
- создать модель преобразования данных высокого уровня;
- определить и подробно описать каждую задачу преобразования данных ;