Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки? Спасибо! |
Архитектура хранилищ данных
Типовые программно-аппаратные решения (технологические решения)
Общие типовые решения
Из предыдущих разделов настоящей лекции следует, что существуют несколько вариантов реализации ХД в рамках типовой архитектуры. Рассмотрим некоторые из них.
- Виртуальное хранилище данных. Архитектура обеспечивает доступ к "живым" данным в режиме реального времени через программное обеспечение промежуточного слоя. В основе такого решения лежит репозиторий метаданных, который описывает источники данных, процедуры их предварительной обработки и форматы представления информации конечному пользователю. Недостатки такого решения — интенсивный сетевой трафик, снижение производительности несущей системы, угроза нарушения целостности данных в случае неудачных действий пользователей ХД.
- Киоски данных Архитектура представляет собой облегченный вариант ХД тематической направленности. Бывают киоски данных, связанные с интегрированным ХД или несвязанные (автономные).
- Глобальное хранилище данных. Архитектура представляет собой единый источник интегрированных данных организации.
- Хранилища данных с многоуровневой (в основном трехзвенной) архитектурой, или корпоративные ХД. Архитектура является разновидностью глобального ХД, в которую технологически реализуются три уровня ( рис. 2.3). На первом уровне располагается корпоративное ХД организации. На втором уровне поддерживаются связанные киоски данных тематической направленности на основе многомерной СУБД. На третьем уровне находятся клиентские приложения пользователей с установленными на них средствами анализа данных.
- Встроенные (комбинированные) хранилища данных. Архитектура представляет собой ХД, которые органически встраиваются в виртуальное предприятие (Enterprise Information Factory, EIF) или используются как компонент аналитической поддержки в информационной реализации бизнес-функций.
- Корпоративная информационная фабрика (Corporate Information Factory, CIF). Эта архитектура является развитием архитектуры корпоративного ХД (enterprise data warehouse, EDW). Ее использование предполагает скоординированное извлечение данных из источников, загрузку их в реляционную БД со структурой в третьей нормальной форме, использование построенного ХД для наполнения дополнительных репозиториев презентационных данных.
- Хранилище данных с архитектурой шины данных (Data Warehouse Bus). В этой архитектуре ХД не является единым физическим репозиторием (в отличие от CIF). Это "виртуальное" ХД, представляющее коллекцию витрин данных, каждая из которых имеет архитектуру типа "звезда".
- Объединенное (федеративное) ХД. В этой архитектуре ХД состоит из ряда экземпляров ХД, которые функционируют на полуавтономной основе и, как правило, организационно или географически разнесены, однако могут рассматриваться и управляться как одно большое ХД.
Существенные различия в программном обеспечении у различных производителей определяются следующими факторами: 1) используемая модель данных; 2) степень охвата жизненного цикла; 3) встроенная поддержка различных архитектур; 4) возможности языка обработки данных. Можно обратить внимание на следующие две основные тенденции.
- Производители предлагают комплексные решения по созданию хранилищ данных. Ведущие производители программного обеспечения в области проектирования и разработки информационных систем с базами данных стараются иметь свои собственные программы по системам складирования данных и обеспечивать полный жизненный цикл разработки и сопровождения таких систем.
- Производители начинают предлагать готовые встроенные архитектурные решения для хранилищ данных. Это обстоятельство позволяет значительно сокращать время на проектирование и разработку ХД.
С точки зрения применения программно-аппаратных платформ решения в области создания систем складирования данных можно условно разбить на три класса.
- Комбинация готовых продуктов (решений) разных фирм без непосредственного программирования.
- Использование полной замкнутой цепочки продуктов (решений) одной фирмы-поставщика.
- Использование контура продуктов (решений) одной фирмы поставщика с дополнением до замкнутой цепочки совместимыми продуктами третьих фирм.
Простое масштабируемое решение
Пример простого масштабируемого решения можно предложить, основываясь на использовании Crystal Enterprise и Crystal Reports (фирма Business Objects) как инструментов конечного пользователя. Подробнее о возможностях Crystal Enterprise и Crystal Reports можно прочитать в литературе к курсу настоящих лекций.
ХД реализуется на СУБД Oracle, DB2, MS SQL Server или других, имеющих ODBC-интерфейс или интерфейс прямого доступа с Crystal Enterprise. Обычно применяется классическая архитектура ХД без киосков данных. Для этого решения большое значение имеет тщательное проектирование структуры ХД и запросов. Необходимо разработать и создать приложения для очистки данных (или воспользоваться имеющими у поставщиков средствами).
Преимущества
- Сводится к минимуму объем программирования, т.к. все стадии покрываются готовыми коробочными продуктами.
- Сокращается время разработки и создания ХД (за счет исключения трудоемкого процесса написания программ).
- Время разработки типового запроса — от 2-х до 6-ти часов, время разработки типового отчета – 1-2 дня.
- Такое решение хорошо для создания прототипов ХД, поскольку в данном случае отрабатываются практически все необходимые запросы и отчеты.
- Создается прекрасная инструментальная среда для использования нетиповых запросов.
- Такое решение прекрасно подходит и для создания виртуальных ХД.
Недостатки
- Разработка сложных перекрестных запросов может занять много времени.
- Это решение не подходит для сложной аналитической обработки данных, требующей разработки специальных приложений для анализа.
Замкнутое типовое решение
Замкнутое типовое решение можно предложить на основе использования замкнутой цепочки продуктов одной фирмы-поставщика, например Microsoft ( рис. 2.4), Oracle ( рис. 2.5), SAS или Sybase.
Преимущества
- Как правило, все бизнес-направления поддерживаются за счет готовых сервисов.
- Время разработки и создания ХД поддается строгому описанию и достаточно точной оценке.
- Такое решение хорошо для создания ХД, которые предполагается использовать в организации длительное время.
- Такие решения подходят для сложной аналитической обработки данных, требующей разработки специальных приложений для анализа.
Недостатки
- Главным недостатком является высокий уровень затрат на разработку и создание, который при правильной организации проекта окупается.
- Кадровый вопрос: необходимо нанимать высококвалифицированные кадры, умеющие работать с набором продуктов выбранной компании. Как правило, обучение своих сотрудников по всем направлениям работы с ХД малоэффективно, хотя и привлекательно.
Области применения технологии хранилищ данных
Концепция хранилищ данных находит применение во многих сферах бизнеса, науки и управления. Рассмотрим типовые решения для бизнеса. Такие типовые решения использования технологии складирования данных в бизнесе можно разделить на следующие основные группы.
- Разработка основы для создания аналитических подсистем сопровождения бизнеса.
- Разработка ХД как составной части виртуального предприятия.
- Разработка ХД для цифровых (электронных) библиотек и мультимедиа.
Основные сферы применения технологии складирования данных приведены в табл. 2.1. Имеется тенденция расширения проникновения концепции в те сферы бизнеса, где необходимо выполнять, с одной стороны, сравнительный анализ, искать зависимости в данных, выявлять тренды в рядах динамики, а с другой – использовать системы складирования данных в связке с системами операционной обработки.
Сокращения, использованные в колонке "Комментарий" табл. 2.1 и не поясненные ранее в тексте, имеют следующие значения:
- CRM (Customer Relationship Management) – управление взаимоотношениями с клиентами;
- SCM (Supply Chain Management) – управление цепочкой поставок;
- SCP (Supply Chain Planing — планирование управления цепочкой поставок;
- SCE (Supply Chain Executing) — реализация управления цепочкой поставок;
- DRP (Distribution Resource Planing) — планирование потребностей распределения;
- JIT (Just-in-Time) — точно в срок;
- MRP (Manufacturing Resource Planing) – планирование материальных затрат;
- VDW (Virtual Data Warehouse) – виртуальные хранилища данных;
- DL (Digital Library) – цифровые библиотеки;
- ERP (Enterprise Resource Planing) – системы планирования масштаба предприятия;
- TMP (Trading Partner Management) – управление деловыми партнерами;
- EIF (Enterprise Information Factory) – виртуальное предприятие.
Рассмотрим несколько примеров применения технологии складирования данных в области создания аналитических подсистем информационного сопровождения бизнеса.
Аналитические CRM-системы
Оперативные системы CRM содержат следующие компоненты: центры обработки мобильных сообщений, данные по обслуживанию клиентов, данные из отдела продаж, данные о продажах через интернет-магазины, данные ERP систем, данные из ИСР (EIS) и других внешних источников. Эти системы выступают источниками данных для аналитических CRM. Типовая структура аналитического ХД CRM-системы приведена на рис. 2.6.
Внедрение такого решения позволяет оптимизировать цепочки работы с клиентами, провести персонализацию обслуживания клиентов, повысить доходы от продаж, а также позволяют разрабатывать стратегии расширения рынка за счет привлечения клиентов на основе индивидуального подхода.
Наиболее известное работающее решение в области аналитических CRM в телекоммуникациях имеет компания SAS Institute (US WEST Communications).
Аналитические SRM-системы
Аналитические SRM (Supply Relationship Management) системы занимаются управлением взаимоотношениями с поставщиками. Пример типовой архитектуры для ХД аналитических SRM систем приведен на рис. 2.7.
Конкурентные преимущества
- Снижение затрат (от 5 до 15%), потока сырья, планирования, исполнения и контроля прохождения.
- Повышение эффективности стратегии бизнеса в области управления финансовыми, материальными и информационными потоками
- Создание оптимальных циклов поставок.
- Оптимизация бизнес процессов на уровне работы с поставщиками.
- Сокращение времени поставок.
- Увеличение прибыли (от 5 до 15%)
Сопутствующие проблемы
- При использовании отдельных SRM-решений возможен конфликт с другими решениями.
- Возникает ряд сложностей с обучением персонала.
- Сопротивление поставщиков и дистрибъютеров.
Наиболее известное решение в области создания аналитических SRM-систем разработано компанией SAS Institute.
Аналитические SCM-системы
Аналитические SCM-системы, не встроенные в ERP-системы, представляют собой информационные системы для решения задач анализа и оптимизации в управлении жизненным циклом продукции. Пример типовой архитектуры для ХД аналитической SCM-системы приведен на рис. 2.8.
Достоинства использования SCM-решений
- Минимизация издержек сети сбыта.
- Снижение затрат, оптимизация потоков сырья, материалов, незавершенного производства, готовой продукции и услуг в результате планирования, исполнения и контроля от точки зарождения заявки до полного удовлетворения требований клиента.
- Повышение эффективности стратегии бизнеса в области управления финансовыми, материальными и информационными потоками
- Создание оптимальных жизненных циклов производства.
- Оптимизация бизнес-процессов на всех уровнях предприятия, начиная с поставки.
- Сокращение времени внедрения новых производственных технологий.
Сопутствующие проблемы
- При использовании SCM-решений возможен конфликт с другими решениями.
- Возникает ряд сложностей с обучением персонала.
- Сопротивление поставщиков и дистрибъютеров.
Конкурентные преимущества
- Уменьшение стоимости и времени обработки заказов (от 20 до 40%).
- Сокращение времени выхода на рынок (от 15 до 30%).
- Сокращение закупочных издержек (от 5 до 15%).
- Уменьшение складских запасов (от 20 до 40%).
- Сокращение производственных затрат (от 5 до 15%).
- Увеличение прибыли (от 5 до 15%).
По уровню использования SCM-решений телекоммуникации занимают второе место в мире (после нефти и газа). Перечень наиболее удачных решений в области оперативных SCM-систем приведен в табл. 2.2.
Виртуальные предприятия
Одной из перспективных областей применения систем складирования данных является разработка ХД как составной части виртуального предприятия. В этом случае ХД рассматривается как часть интегрированной информационной структуры организации, которая имеет типовую архитектуру, показанную на рис. 2.9.
Мультимедийные хранилища данных
Очень перспективным в последнее время становится разработка ХД для цифровых (электронных) библиотек и мультимедиа. Современные СУБД имеют ряд встроенных возможностей для хранения и выборки мультимедийных данных (например СУБД Pilot). Однако большинство решений по созданию мультимедийных баз данных реализуется на реляционных СУБД, обладающих возможностью работы с BLOB-данными и имеющими поддержку очень больших БД. Типичными представителями таких СУБД являются СУБД Oracle (имеет специальные средства выборки визуальной информации — VIR и интернет-систему обработки файлов iFS), DB2 и Informix (теперь IBM).
Примерами мультимедийных ХД являются разрабатываемые во всем мире электронные хранилища музейных данных (образы картин и других экспонатов).
Обсудим особенности типового решения создания мультимедийных ХД на основе реляционных СУБД. Следует отметить следующие свойства медиаданных:
- неструктурированная форма с точки зрения теории реляционных баз данных;
- размер элемента медиаданных очень большой;
- данные не имеют фиксированного максимального размера;
- внутренний формат для представления таких данных не может быть выражен простым типом данных реляционных СУБД;
- поиск данных затруднен или просто невозможен стандартными средствами СУБД.
С точки зрения разработки хранилищ мультимедийных данных следует отметить одно важное обстоятельство: измерения, в большинстве практических случаев, выражаются через простые типы данных, что значительно облегчает разработку хранилищ таких данных.
В этом отношении хранилище мультимедийных данных имеет типовую архитектуру, в которой медиаданные быстро извлекаются и визуализируются. Задачи сравнительного анализа медиаданных зависят от предметной ориентации ХД и требуют обычно специально разработанных процедур.
Преимущество
- Медиаданные классифицируются по иерархическим категориям и вводятся в ХД, что увеличивает скорость их выборки.
Сопутствующие проблемы
- Высокие требования к аппаратным решениям.
- Разработка систем классификации медиаданных.
- Разработка процедур и программ поиска медиаданных и их анализа.