Опубликован: 15.03.2010 | Уровень: специалист | Доступ: платный | ВУЗ: Волгоградский государственный университет
Лекция 1:

Введение в основы OLAP

Проблематика построения хранилищ данных

Основная проблематика при создании ХД заключается в следующем:

  1. интеграция разнородных данных. Данные в ХД поступают из разнородных OLTP-систем, которые физически могут быть расположены на различных узлах сети. При проектировании и разработке ХД необходимо решать задачу интеграции различных программных платформ хранения;
  2. эффективное хранение и обработка больших объемов данных. Построение ХД предполагает накопление данных за значительные периоды времени, что ведет к постоянному росту объемов дисковой памяти, а также росту объема оперативной памяти, требующейся для обработки этих данных. При возрастании объемов данных этот рост нелинеен;
  3. организация многоуровневых справочников метаданных. Конечным пользователям СППР необходимы метаданные, описывающие структуру хранящихся в ХД данных, а также инструменты их визуализации;
  4. обеспечение информационной безопасности ХД. Сводная информация о деятельности компании, как правило, относится к коммерческой тайне и подлежит защите; кроме того, в ХД могут содержаться персональные данные клиентов и сотрудников, которые также необходимо защищать. Для выполнения этой функции должна быть разработана политика безопасности ХД и связанной с ним инфраструктуры, а также реализованы предусмотренные в политике организационные и программно-технические мероприятия по защите информации.
Витрины данных

Сокращение затрат на проектирование и разработку ХД может быть достигнуто путем создания витрин данных (ВД). ВД - это упрощенный вариант ХД, содержащий только тематически объединенные данные (рисунок 1.3).

 Структура СППР с самостоятельными ВД

Рис. 1.3. Структура СППР с самостоятельными ВД

ВД содержит данные, ориентированные на конкретного пользователя, существенно меньше по объему, и для ее реализации требуется меньше затрат. ВД могут строиться как самостоятельно, так и вместе с ХД. ВД внедряются гораздо быстрее и быстрее виден эффект от их использования. Недостатками ВД является многократное хранение одних и тех же данных в различных ВД и отсутствие консолидированности на уровне предметной области.

Обычно информация попадает в ВД из ХД, в этом случае ВД называются зависимыми. Возможна также ситуация, когда источником информации для пополнения ВД служат непосредственно OLTP-системы. Такие ВД, получившие название независимых, как правило, рассматриваются как временное решение, позволяющее достаточно быстро и с небольшими затратами решить наиболее важные задачи, оценить преимущества нового подхода, сформулировать некоторые рекомендации для более масштабного проекта разработки общего ХД.

Возможно также совмещение ХД и ВД в рамках одной СППР. ХД в этом случае представляет собой единый источник данных для всей предметной области, а ВД являются подмножествами данных из хранилища, организованными для представления информации по тематическим разделам данной области. В том случае, если пользователю, для которого создавалась ВД, содержащихся в ней данных недостаточно, то он может обратиться к ХД (рисунок 1.4).

 Структура СППР с ХД и ВД

увеличить изображение
Рис. 1.4. Структура СППР с ХД и ВД

Достоинствами такого решения являются простота создания и наполнения ВД, поскольку наполнение происходит из единого стандартизированного источника очищенных данных - из ХД, простота расширения за счет добавления новых ВД, а также снижение нагрузки на основное ХД.

Недостатки заключаются в избыточности, так как данные хранятся и в ХД, и в ВД, а также дополнительные затраты на разработку СППР с ХД и ВД.

Понятие и модель данных OLAP

Понятие OLAP

OLAP (Online Analytical Processing) - технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений.

Основное назначение OLAP-систем - поддержка аналитической деятельности, произвольных запросов пользователей - аналитиков. Цель OLAP-анализа - проверка возникающих гипотез.

Категории данных в ХД

Все данные в ХД делятся на три категории (рисунок 1.5):

 Архитектура ХД

увеличить изображение
Рис. 1.5. Архитектура ХД
  1. детальные данные - данные, переносимые непосредственно из OLTP-подсистем. Соответствуют элементарным событиям, фиксируемым в OLTP-системах. Подразделяются на:
    • измерения - наборы данных, необходимые для описания событий (товар, продавец, покупатель, магазин, … );
    • факты - данные, отражающие сущность события (количество проданного товара, сумма продаж, …);
  2. агрегированные (обобщенные) данные - данные, получаемые на основании детальных путем суммирования по определенным измерениям;
  3. метаданные - данные о данных, содержащихся в ХД. Могут описывать:
    • объекты предметной области, информация о которых содержится в ХД;
    • категории пользователей, использующих данные в ХД;
    • места и способы хранения данных;
    • действия, выполняемые над данными;
    • время выполнения различных действий над данными;
    • причины выполнения различных действий над данными.
Информационные потоки в ХД

Данные в ХД образуют следующие информационные потоки (рисунок 1.5):

  • входной поток - образуется данными, копируемыми из OLTP-систем в ХД; данные при этом часто очищаются и обогащаются путем добавления новых атрибутов;
  • поток обобщения - образуется агрегированием детальных данных и их сохранением в ХД;
  • архивный поток - образуется перемещением детальных данных, количество обращений к которым снизилось;
  • поток метаданных - образуется потоком информации о данных в репозиторий данных;
  • выходной поток - образуется данными, извлекаемыми пользователями;
  • обратный поток - образуется очищенными данными, записываемыми обратно в OLTP-системы.
Ксения Кожанова
Ксения Кожанова

Здравствуйте! Я прошла 1 лекцию и 1 самостоятельную работу. В конце контрольные вопросы, их надо для как-то ответить или куда-то отослать?

Андрей Павлов
Андрей Павлов
Виталий Апухтин
Виталий Апухтин
Россия
Александр Билибин
Александр Билибин
Россия, г. Москва