Опубликован: 20.12.2010 | Уровень: специалист | Доступ: свободно
Лекция 1:

Предисловие

Лекция 1 || Лекция 2 >

"Публикация данных для бизнес - менеджеров является первостепенной задачей". Ральф Кимбалл

Посвящается любимой жене Ирине.

Складирование данных, как информационная технология (далее - ИТ), достаточно быстро превратилась в уникальный и популярный класс приложений для систем бизнеса -аналитики. В свое время создатели концепции хранилищ данных утверждали, что системы, построенные на таких принципах, станут ключевыми компонентами информационной инфраструктуры и архитектуры аналитических приложений для различных сфер в производстве, науке и технологиях. Это предсказание сбылось. Производители аппаратных средств ЭВМ и программного обеспечения быстро создали класс изделий и сервисов для реализации хранилищ данных. В настоящее время хранилища данных являются не только востребованной ИТ, но быстро развивающейся отраслью компьютерной индустрии. По данным исследовательской группы PAMG, Inc объем мирового рынка систем складирования данных динамично развивается. Так что можно смело утверждать, что существует рынок систем бизнес - аналитики. Наличие такого рынка порождает и спрос на специалистов по системам бизнес - аналитики, и, в частности, проектировщиков хранилищ данных.

Процесс проектирования и разработки хранилищ данных обладает рядом характерных особенностей, связанных как с представлением предметной области в хранилище данных, так и с использованием встроенных механизмов программного обеспечения СУБД для воплощения хранилища данных в вычислительной среде. Как и любой процесс проектирования в информационной сфере, проектирование хранилища данных заключается в достижении компромиссов между функциональными, информационными, аппаратными, архитектурными и технологическими требованиями к хранилищу данных, и строится на информированном принятии решений по его структуре данных. Поэтому при изложении материала авторы предприняли попытку предоставить минимально достаточный набор понятий, навыков и умений для решения задачи проектирования хранилища данных.

Целью настоящего курса лекций является описание возможностей, которые предоставляют современные реляционные СУБД и CASE инструменты для проектирования хранилищ данных в системах бизнес – аналитики.

Курс лекций состоит из восемнадцати лекций и рассчитан на .один учебный семестр.

В первой лекции "Хранилища данных" рассматриваются концепция систем складирования данных и хранилищ данных, основные причины ее возникновения и сферы применения, вводятся и обсуждаются базовые понятия, приведены примеры.

Во второй лекции "Архитектура хранилищ данных" изучаются типовые архитектуры хранилищ данных, рассматриваются глобальное хранилище данных, централизованное хранилище данных, распределенное хранилище данных, киоски данных, взаимосвязанные киоски данных, независимые киоски данных, корпоративная информационная фабрика, хранилище данных с архитектурой шины данных, федеральное хранилище данных. Обсуждаются основные типы хранилищ данных.

В третьей лекции "Модель типового проекта создания хранилища данных" описываются основные бизнес - функции процесса разработки хранилища данных и подробно излагаются бизнес - функции проектирования. Проектировщик хранилища данных должен иметь план проектирования хранилища данных. Знание бизнес - функции и бизнес - процедуры процесса проектирования хранилища данных являются хорошей основой для такого плана.

В четвертой лекции "Системы деловой осведомленности (Business Intelligence Systems) и хранилища данных" вводится понятие систем деловой осведомленности или систем бизнес - аналитики, рассматриваются основные требования к таким системам и их архитектурные особенности. Подробно обсуждаются вопросы обеспечения информационной безопасности таких систем, проблемы их создания и возможные пути решения этих проблем. Показывается место хранилища данных при разработке систем бизнес – аналитики.

Проектировщик должен быть знаком как с основами теории в области логического проектирования хранилищ данных, так и с использованием особенностей СУБД на физическом уровне. При создании хранилища необходимо учитывать возможности СУБД по созданию объектов, спроектированных на этапе логического моделирования, использовать встроенные механизмы СУБД, которые позволяют бороться за производительность хранилища данных на этапе физического проектирования и использовать встроенные возможности языка SQL для аналитической обработки данных. Изучению этих вопросов и их влиянию на принятие проектных решений посвящены пятая, шестая, седьмая лекции. Это теоретический раздел, который является методологической основой проектирования хранилищ данных.

Существует несколько ориентированных на проектирование хранилищ данных CASE средств, которые позволяют проектировщику создавать хорошие схемы для хранилищ, данных и документировать процесс проектирования. Использование CASE средств - важный момент в современном проектировании информационных систем (ИС). Такие средства не только облегчают процесс проектирования, но позволяют сформировать единую среду общения для всех участников проекта. Проектировщик хранилища данных должен четко представлять, что результат его труда будет использоваться всеми участниками ИТ - проекта на всех последующих стадиях его реализации, а также и при эксплуатации системы другими подразделениями организации. Начиная с этих лекций начинается применение CASE инструмента PowerDesigner 15 компании Sybase.

В пятой лекции "Метод моделирования "сущность-связь" рассматриваются определение предметной области для хранилищ данных, метод моделирования "сущность-связь", нормальные формы отношений, процесс нормализации сущностей модели "сущность-связь", приводится примеры построения диаграмм "сущность-связь".

В шестой лекции "Моделирование темпоральных (временных) данных в хранилищах данных" рассматриваются вопросы логического моделирования темпоральных (временных) данных предметной области. Обсуждаются основные подходы к представлению времени в объектах модели предметной области, приводятся примеры.

В седьмой лекции "Метод многомерного моделирования" рассматриваются основы метода многомерного моделирования данных для ХД, вводятся и обсуждаются основные элементы многомерной модели и понятия метода. Приведены примеры моделирования для основных схем.

В восьмой лекции "Создание физической модели хранилища данных" рассматриваются вопросы формирования физической модели хранилища данных, кратко описываются объекты физической базы данных, представлен алгоритм формирования физической модели хранилища данных из логической модели на примере схемы "звезда".

Метаданные являются одной из самых важных компонент хранилища данных. Их значение определяется местом хранилища данных в информационной инфраструктуре организации. Данные поступают в хранилище данных из многочисленных источников и систематизируются для использования аналитиками и руководством компании в течение длительного времени. Это выдвигает жесткие требования к описанию данных в хранилище данных. Метаданные предназначены реализовать такие требования и обеспечить его эволюцию на всем промежутке времени его существования.

В девятой лекции "Метаданные в хранилищах данных" рассматриваются определение метаданных для хранилища данных, описаны функции метаданных в хранилищах данных, приводится классификация метаданных для хранилищ данных, приведен пример моделирования логической модели метаданных для хранилища данных.

Процессы подготовки данных для хранилищ данных являются самыми трудозатратными по времени. Их тщательная проработка и проектирования является ответственной задачей проектировщика хранилищ данных.

В десятой лекции "Проектирование и разработка процесса ETL" рассматривается общие принципы организации процесса извлечения, преобразования и загрузки данных (Extract, Transform, Load - ETL) для ХД, приводится классификация систем - источников данных, обсуждаются некоторые методы извлечения данных. Рассмотрена в общих чертах методика проектирования ETL процессов с использованием CASE инструментов.

В одиннадцатой лекции "Создание модели хранилища данных на основе корпоративной модели данных" изучаются вопросы проектирования хранилища данных на основе корпоративной модели данных организации. На примере разбирается методика такого проектирования.

В двенадцатой лекции "Метод моделирования "Свод данных" рассматривается метод моделирования хранилищ данных, который получил название "Свод данных". Объясняются основные понятия метода, приводятся примеры построения логических моделей для "Свода данных".

В тринадцатой лекции "Проектирование производительности: денормализация отношений" изучаются вопросы проектирования производительности хранилища данных на уровне логической модели данных. Определяется понятие транзакции, изучаются методы денормализации отношений. Приводятся примеры.

В четырнадцатой лекции "Создание физической модели базы данных: проектирование производительности" рассматриваются вопросы проектирования для обеспечения требуемого уровня производительности физической структуры хранилища данных на основе на СУБД - ориентированных средств: индексы, секции, кластеры.

В пятнадцатой лекции "SQL в хранилищах данных: агрегация и суммирование" рассматривается расширение диалектов SQL промышленных СУБД для аналитической обработки данных в хранилищах данных, приводятся примеры работы со схемой "звезда", содержащей аддитивные и полуаддитивные факты. Разбираются примеры использования расширения оператора SELECT для агрегации данных в хранилищах данных.

В шестнадцатой лекции "SQL в хранилищах данных: аналитическая обработка данных" продолжается изучение расширения диалектов SQL промышленных СУБД для аналитической обработки данных в хранилищах данных. Изучаются статистические функций, ранжирующие функции, оконные функции в диалекте Transact-SQL СУБД MS SQL Server 2008. Разбираются примеры использования, в том числе для формирования отчетов и построения гистограмм.

В семнадцатой лекции "Настройка производительности запросов к хранилищу данных" рассматриваются основы оптимизации обработки запросов в реляционных базах и хранилищах данных.

В восемнадцатой лекции "Проектирование кубов данных" рассматриваются основы проектирования кубов данных для OLAP хранилищ данных. На примере показана методика построения куба данных с помощью CASE инструмента.

Курс лекций адресован в первую очередь студентам и аспирантам, изучающим информационные технологии, и собирающимся специализироваться в области проектирования хранилищ данных. Она будет также полезна преподавателям информационных дисциплин и специалистам в области аналитических приложений.

Для более серьезного изучения материалов настоящего курса рекомендуется скачать демо-версии CASE инструмента PowerDesigner 12 или 15, СУБД MS SQL Server 2008 с сайтов компаний Sybase и Microsoft.

Материалы к семинарам и практическим работам Вы можете скачать здесь.

Благодарности

Автор выражают глубокую благодарность сотрудникам Интернет - Университета Информационных Технологий за понимание и внимательное отношение к процессу написания настоящих лекций, своим коллегам, сотрудникам Учебного центра компании Interface, в котором автор в течение ряда лет читал курсы по тематике проектирования хранилищ данных.

Лекция 1 || Лекция 2 >
Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?