Опубликован: 20.12.2010 | Уровень: специалист | Доступ: свободно
Лекция 10:

Метаданные в хранилищах данных

Логическая структура метаданных измерений

Логическую структуру метаданных для измерений приведем на примере измерений "Покупатель" и "Время". Она может быть следующей.

Для измерения "Покупатель"

Имя: Покупатель (Customer).

Определение: Покупатель — это любое физическое или юридическое лицо, которое приобретает продукцию компании. Покупатель может приобретать товары в нескольких точках продаж компании.

Альтернативное имя: нет.

Иерархия измерения: Данные по этому измерению могут суммироваться на двух уровнях. Первый уровень суммирования (нижний) есть адрес отгрузки товара покупателю. Данные по каждому адресу юридического лица могут быть позднее просуммированы по каждому покупателю.

Правила изменения: Адреса отгрузки товара по каждому юридическому лицу вставляются как новые строки в измерение. Изменение существующих адресов покупателей выполняется обновлением непосредственно в таблице измерения.

Частота загрузки: Ежедневно.

Статистика загрузки

  • Последняя дата загрузки.
  • Количество загруженных строк.

Статистика использования

  • Среднее число запросов за день.
  • Среднее число выбранных строк на запрос.
  • Среднее время выполнения запроса.
  • Максимальное число запросов за день.
  • Максимальное число выбранных строк на запрос.
  • Максимальное время выполнения запроса.

Правила архивации: Данные этого измерения не архивируются.

Статистика архивации:

  • Дата последней архивации.

Правила удаления: Покупатели, которые не приобретали продукцию компании в течение последних 5-ти лет, удаляются из таблицы измерения на ежемесячной основе.

Статистика удаления:

  • Дата последнего обновления.

Качество данных: Когда новый покупатель добавляется в измерение, выполняется поиск, чтобы определить, не было ли продаж товара данному покупателю по другому адресу. Независимо от того, были ли такие продажи, покупатель с новым адресом отгрузки товара вставляется как новая строка.

Точность данных: Допускается пятипроцентная неточность в определении связей между покупателем и его адресами отгрузки.

Ключ измерения: Сгенерированное системой число, которое идентифицирует покупателя.

Метод генерации ключа: Когда запись о покупателе копируется из подающей системы, выполняется проверка на присутствие покупателя в ХД. Если такого покупателя нет в ХД, новый идентификатор генерируется и запись вставляется в измерение.

Источники

  • Имя (Name): Таблица "Покупатель" (Customer).
  • Правила преобразования: Строки из таблицы "Покупатель" подающей системы копируются ежедневно.
  • Критерий выборки: Выбираются только новые или модифицированные на текущую дату строки.
  • Имя: Таблица "Адреса покупателей" (Customer Location).
  • Правила преобразования: Строки из таблицы "Адреса покупателей" копируются ежедневно в таблицу измерения. Для существующих адресов покупателей адрес отгрузки обновляется. Для новых адресов покупателей ключ генерируется и записи вставляются.
  • Критерий выборки: Выбираются только те записи, которые на текущую дату были обновлены или добавлены.

Атрибуты

  • Имя: Идентификатор покупателя (Customer Key)
  • Определение: Это есть произвольно выбранное число, гарантирующее уникальность каждого покупателя и его адреса.
  • Правила изменения: После вставки в измерение значение этого атрибута никогда не изменяется.
  • Тип данных: Числовой.
  • Домен: 1 - 999999999
  • Правила вычисления значения: Сгенерированный системой ключ.
  • Источник: Генерируется системой.
  • Имя: Наименование (Name).
  • Определение: Наименование, под которым покупатель известен компании.
  • Правило изменения: При изменении наименования покупателя оно обновляется для всего этого измерения.
  • Тип данных: Символьный.
  • Домен: Допустимая строка символов.
  • Правила вычисления значения: Для того чтобы различать покупателей из разных организаций с одинаковым названием, к названию организации будет добавляться число.
  • Источник: Поле "Наименование" (Name) из таблицы покупателей (Customer) подающей системы.
  • Имя: Адрес отгрузки (Ship-to Address).
  • Определение: Для юридических лиц — это адрес, по которому отгружается товар. Допускается, что одно юридическое лицо может иметь несколько адресов отгрузки. Для физических лиц и розничных покупателей это поле не поддерживается. Таким образом, для таких покупателей в таблице измерения поддерживается только одна запись.
  • Правила изменения: При изменении адреса отгрузки выполняется обновление этого значения в измерении.
  • Тип данных: Символьный.
  • Домен: Запись адреса в допустимом формате.
  • Правила вычисления значения: Адрес отгрузки копируется из таблицы источника.
  • Источник: Поле "Адрес отгрузки" (Ship-to Address) из таблицы "Адреса покупателей" (Customer Location) подающей системы.

Факты: Продажа (Sale).

Метрики: Общая стоимость (Total cost), Общая прибыль (Total revenue), Общее количество продаж (Total quantity sold) и Скидка (Discount amount).

Ответственный за поставку данных: Вице-президент по продажам и маркетингу.

Для измерения "Время"

Имя: Время (Time).

Определение: Измерение "Время" содержит моменты времени, когда компания фиксирует данные о продажах.

Альтернативное имя: Нет.

Иерархия измерения: Наименьший уровень суммирования данных есть день. Данные для этого дня могут быть просуммированы либо за неделю, либо за месяц.

Правила изменения: Записи вставляются в измерение один раз за текущий год. Никакие обновления в этом измерении не допускаются.

Частота загрузки: По мере необходимости.

Статистика загрузки

  • Дата последней загрузки.
  • Число загруженных строк.

Статистика использования

  • Среднее число запросов за день.
  • Среднее число выбранных строк на запрос.
  • Среднее время выполнения запроса.
  • Максимальное число запросов за день.
  • Максимальное число выбранных строк на запрос.
  • Максимальное время выполнения запроса.

Правила архивации: Данные этого измерения не архивируются.

Правила удаления: По истечении 5-ти лет данные будут удаляться на ежегодной основе.

Статистика удаления

  • Дата последнего удаления

Качество данных: Никаких ошибок в данных этого измерения не предполагается.

Точность данных: Данные этого измерения всегда точны.

Ключ измерения: Ключ измерения "Время" есть дата в формате ГГГГММДД.

Метод генерации ключа: Дата, представленная в строке, используется как значение ключа.

Источник

  • Имя: Календарь, поддерживаемый администратором.
  • Правила преобразования: Все строки календаря вставляются один раз в год.
  • Критерий выборки: Все строки выбираются.

Атрибуты

  • Имя: Идентификатор (Time_ID).
  • Определение: Это есть дата в формате ГГГГММДД.
  • Альтернативное имя: нет.
  • Правила изменения: После вставки значение этого поля никогда не изменяется.
  • Тип данных: Числовой.
  • Домен: допустимое знание для даты.
  • Правила вычисления значения: Дата есть копия значения источника.
  • Источник: Числовое значение даты из календаря.
  • Имя: Месяц (Month).
  • Определение: Номер месяца в году.
  • Альтернативное имя: нет.
  • Правила изменения: После вставки значение этого поля никогда не изменяется.
  • Тип данных: Числовой.
  • Домен: 1-12.
  • Правила вычисления значения: Значение копируется из источника.
  • Источник: Номер месяца в году из календаря.
  • Имя: Неделя (Week).
  • Определение: Номер месяца в году.
  • Альтернативное имя: нет.
  • Правила изменения: После вставки значение этого поля никогда не изменяется.
  • Тип данных: Числовой.
  • Домен: 1-52.
  • Правила вычисления значения: Значение копируется из источника.
  • Источник: Номер недели в году из календаря.

Факты: Продажа (Sale).

Метрики: Общие издержки (Total cost), Общий доход (Total revenue), Общее количество проданного товара (Тotal quantity sold) и Скидки (Discount amount).

Ответственный сотрудник: Администратор ХД.

Логическая структура метаданных для метрик

Логическую структуру метаданных для метрик дадим на примере метрик "Общие издержки", "Общий доход" и "Общее количество продаж". Она может быть следующей.

Имя: Общие издержки (Total Cost).

Определение: Это есть стоимость всех компонент, используемых для создания данного вида (модели) продукции, которая была продана.

Альтернативное имя: нет.

Тип данных: Числовой.

Домен: 0.01 - 9999999.99

Правила вычисления значения: Общие издержки равны произведению стоимости единицы товара (модели) на количество проданных моделей.

Статистика использования

  • Среднее число запросов в день.
  • Максимальное число запросов в день.

Качество данных: Эта метрика формируется только исходя из стоимости комплектующих деталей на момент продажи данного вида товара. Никакие другие виды издержек на производство товара не учитываются.

Точность данных: Предполагается, что разброс значений в стоимости комплектующих деталей данного вида товара составляет +/- .5%.

Факты: Продажа (Sale).

Измерения: Покупатель (Customer), Производитель (Manufacture), Продукт (Product), Продавец (Seller) и Время (Time).

Имя: Общий доход (Total Revenue).

Определение: Общий доход равен произведению проданных единиц товара на отпускную цену этого товара на момент продажи.

Тип данных: Числовой.

Домен: 0.01 - 999999999.

Правила вычисления значения: Общий доход есть произведение отпускной цены модели товара на количество проданных моделей товара.

Статистика использования

  • Среднее число запросов в день.
  • Максимальное число запросов в день.

Качество данных: Эта метрика представляет количество проданных моделей товара.

Точность данных: С точки зрения построения трендов продаж и шаблонов поведения покупателей высокая точность данных не требуется.

Факты: Продажа (Sale).

Измерения: Покупатель (Customer), Производитель (Manufacture), Продукт (Product), Продавец (Seller) и Время (Time).

Имя: Общее количество продаж (Total Quantity Sold).

Определение: Это есть число проданных единиц моделей товара.

Тип данных: Числовой.

Домен: 1 - 9999999.

Правила вычисления значения: Это значение берется непосредственно из графы "количество" для каждой позиции счета.

Статистика использования

  • Среднее число запросов в день.
  • Максимальное число запросов в день.

Качество данных: Это поле представляет только количество проданного товара.

Точность данных: С точки зрения построения трендов продаж и шаблонов поведения покупателей высокая точность данных не требуется.

Факты: Продажа (Sale).

Измерения: Покупатель (Customer), Производитель (Manufacture), Продукт (Product), Продавец (Seller) и Время (Time).

Логическая структура метаданных источников

Логическая структура метаданных источников может быть следующей (на примере описания таблицы "Счет" из подающей системы).

Имя таблицы: Счет (Order).

Метод извлечения данных: В исходной таблице выбираются записи с законченными на текущую дату операциями для добавления в ХД.

График извлечения данных: Ежедневно по завершении рабочего дня.

Статистика извлечения данных

  • Последняя дата экстрагирования.
  • Число строк.
Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?