Опубликован: 20.12.2010 | Доступ: свободный | Студентов: 2412 / 165 | Оценка: 4.27 / 3.91 | Длительность: 39:39:00
ISBN: 978-5-9963-0353-3
Лекция 5:

Системы деловой осведомленности (Business Intelligence Systems) и хранилища данных

Технологии обработки данных

Технология диалоговой аналитической обработки (OLAP)

Концепция многомерного представления данных предполагает, что элементы данных (фактическая информация) являются точками многомерного пространства, размерности которого представляют собой содержательное описание таких фактов (точку зрения на них). В приложениях обработки многомерных данных сохраняются все проблемы с визуализацией многомерных массивов данных. Самые продвинутые, дорогостоящие и элитарные решения пребывают в пределах своих узких предметных ниш.

Конечные пользователи не намерены каким-то образом продвигать за свой счет электронные таблицы в интерфейс с многомерными БД. Конечно, электронные таблицы, в силу их удобства и простоты, являются излюбленным инструментом конечных пользователей. Однако, как показывает опыт, электронные таблицы хороши лишь тогда, когда они "заточены" под многомерность конкретных предметных областей.

Приложения OLAP зачастую бывают весьма громоздкими, обычно их рентабельность отвечает использованию в составе корпоративных рабочих групп, например в аналитических службах. Вообще, для эффективного использования решений OLAP нужна поддержка корпоративной инфраструктуры.

Как показывает анализ, Web-архитектуры быстро вытесняют традиционные клиент-серверные приложения для целого ряда категорий программного обеспечения, и рынок корпоративных OLAP-решений здесь не исключение.

Это направление стремительно развивается за счет появления различных Web-OLAP инструментов на базе HTML- и Java-технологий от известных поставщиков и быстро растущих новых компаний. В связи с расширением контингента пользователей продукты Web-OLAP разрабатываются для выполнения несколько иного анализа, чем традиционные клиент-серверные инструменты. Происходит переход от инструментальных средств исследования данных, ориентированных на специалистов-аналитиков, к готовым аналитическим приложениям, доступным для более широкого круга пользователей.

В табл. 4.1 приведены критерии, которые определяют успех Web-OLAP-продуктов.

Таблица 4.1. Критерии успеха Web-Olap-решения
Критерий Описание
Удобство использования Успешный BI-продукт должен быть достаточно прост для неопытного пользователя, не имеющего специальной подготовки
Интерактивность Программное средство должно реализовать интерактивные возможности, в том числе:
  • просмотр статических документов;
  • динамическое обновление существующих документов, обеспечивающее доступ к самой свежей информации;
  • динамическое выполнение нерегламентируемых запросов к источникам данных;
  • динамическое неограниченное "углубление в данные" (drill-down)
Функциональность Web-BI-приложение должно обеспечивать такие же возможности, как и традиционные клиент-серверные аналоги, удовлетворяя при этом дополнительным требованиям. Генерирование SQL, выполнение динамических пользовательских расчетов, различные методы навигации - все это необходимо и в Web
Доступность и переносимость. Главное преимущество Web - доступность и переносимость. Информация должна быть доступна для любого устройства, рабочего места, в любой точке земного шара, вне зависимости от того, находятся ли данные в главном управлении компании, в удаленных офисах или на портативном устройстве. Клиентская часть идеального BI-продукта должна быть небольшой, чтобы удовлетворить различным уровням пропускной способности сети пользователя, а также соответствовать стандартизованной технологии
Архитектура Поскольку Web-среда принципиально отличается от традиционной клиент-серверной, здесь возникает множество новых технологических проблем. Многозвенная архитектура, допускающая наличие различных типов клиентов (Java, HTML и т.п.), а также "собственное" соединение с Web-сервером (NSAPI, ISAPI) и сервером базы данных, необходима для корпоративного программного продукта
Интеграция. Независимость от источников данных Корпоративная вычислительная среда содержит различные виды аппаратных и программных ресурсов, пакетных приложений и баз данных. Хорошо разработанное BI-приложение должно давать доступ к статическим документам любого типа (а не только к тем, которые оно само создает), а также интерактивный доступ к реляционным и многомерным базам данных, приложениям и другим источникам
Производительность и масштабируемость Для обеспечения производительности и масштабируемости в Web необходимо реализовать следующие возможности:
  • балансировку нагрузки сервера приложения;
  • собственное соединение с web-сервером;
  • собственный доступ к базе данных;
  • кэширование сервером приложения (данных или соединений с базой);
  • персистентность, устраняющую проблему хранения состояний в Web
Обеспечение безопасности Возможность администрирования через web - одно из ключевых преимуществ. Так, для изменения прав конкретного пользователя администратору не нужно появляться на его рабочем месте. Используя модули администрирования, можно создавать профили для отдельных пользователей или групп, предоставляя доступ только к авторизованной информации
Стоимость внедрения и администрирования Стоимость внедрения Web-OLAP-решения в расчете на одного пользователя должна быть существенно ниже, чем для традиционных продуктов. Поскольку поддержка клиента - очень сложная задача для традиционных клиент-серверных продуктов, Web-решения устраняют часть накладных расходов, не требуя специального клиентского ПО, кроме браузера. Расходы на администрирование становятся значительно меньше, если:
  • снижается стоимость поддержки клиентской части ПО;
  • снижается стоимость поддержки серверного компонента;
программа может эффективно функционировать в Web-среде, где распространяются тысячи отчетов/документов и тысячи пользователей нуждаются в защищенном интерактивном доступе к разным базам

Интеллектуальная обработка данных (Data Mining)

Возникновение Data Mining (добыча данных) связано с наличием противоречия между теоретическими методами прикладной статистики и практикой решения реальных задач. Синонимами этого понятия являются обнаружение знаний в БД и интеллектуальный анализ данных.

Стимулом развития технологии Data Mining явился прорыв в технологиях электронного хранения больших объемов данных — деятельность любого предприятия сопровождается регистрацией и записью на электронные носители всех подробностей его деятельности.

Очевидно, что без технологии переработки потока этих "сырых" данных (raw data), последние образуют просто большую свалку.

Требования к технологии переработки:

  • данные имеют неограниченный объем;
  • данные являются разнородными по типу (количественными, качественными, текстовыми);
  • результаты должны быть понятны и конкретны;
  • инструменты для обработки сырых данных должны быть просты в использовании.

Традиционная прикладная статистика не справляется с поставленными задачами. Главная причина — она работает с фиктивными, средними величинами (концепция усреднения по выборке). Ее методы полезны при проверке заранее сформулированных гипотез (verification-driven data mining) и для грубого предварительного анализа, составляющего основу OLAP (online analytical processing).

В основу технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют закономерности, свойственные подвыборкам данных, которые могут быть выражены в понятной человеку форме. Поиск шаблонов проводится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.

Понятно, что такие шаблоны должны быть нетривиальны (unexpected — неожиданные регулярности в данных, которые составляют так называемые скрытые знания, Hidden knowledge).

Есть понимание того, что "сырые" данные содержат глубинный пласт знаний и его нужно раскопать.

Различия в формулировках задач диалоговой аналитической обработки данных и интеллектуального анализа данных приведены в табл. 4.2.

Таблица 4.2.
OLAP Data Mining
Каковы средние показатели травматизма для курящих и некурящих? Встречаются ли точные шаблоны в описании людей, подверженных повышенному травматизму?
Каково среднее соотношение размеров телефонных счетов существующих клиентов со счетами бывших клиентов? Имеются ли характерные портреты клиентов, которые, по всей видимости, собираются отказаться от услуг телефонной связи?
Какова средняя величина ежедневных покупок по украденной и не украденной карточке? Существуют ли стереотипные схемы покупок для случая мошенничества с кредитными карточками?

Основные бизнес-приложения Data Mining

  1. Розничная торговля (предполагается, что собирается информация о каждой покупке)
    • Анализ покупательской корзины (анализ сходства) — выявление товаров, которые покупаются вместе. Необходимо для рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах
    • Исследование временных шаблонов. Создание запасов
    • Создание прогнозирующих моделей. Характер потребностей различных категорий покупателей с определенным поведением (приобретение товаров известных марок или распродажа). Разработка направленных мероприятий по продвижению товаров
  2. Банковское дело
    • Выявление мошенничества с кредитными карточками. Анализ транзакций, которые оказались мошенническими
    • Сегментация клиентов. Маркетинговая политика банка становится более целенаправленной
    • Прогнозирование изменения клиентуры, модели ценности своих клиентов и соответствующее обслуживание каждой категории
  3. Телекоммуникации
    • Анализ записей о подробных характеристиках вызовов — выявление категорий клиентов с похожими стереотипами поведения и разработка привлекательных наборов цен и услуг
    • Выявление лояльности клиентов. Определение характеристик клиентов, которые однажды воспользовавшись услугами компании, и с большей долей вероятности воспользуются еще раз
  4. Страхование
    • Выявление мошенничества. Определенные стереотипы в заявлениях о выплате страховки, характеризующие взаимоотношения между юристами, врачами и заявителями
    • Анализ риска. Путем выявления факторов, связанных с оплаченными заявлениями, можно уменьшить свои потери

Необходимость автоматизированного интеллектуального анализа данных стала очевидной, в первую очередь, из-за огромных массивов исторической и вновь собираемой информации. Трудно даже приблизительно оценить объем ежедневных данных, накапливаемых различными компаниями, государственными, научными и медицинскими организациями. По мнению исследовательского центра компании GTE, только научные институты собирают ежедневно около терабайта новых данных.

Другой причиной роста популярности интеллектуального анализа данных ( data mining ) является объективность получаемых результатов. Человеку-аналитику, в отличие от машины, всегда присущ субъективизм: он в той или иной степени является заложником уже сложившихся представлений. Иногда это полезно, но чаще приносит большой вред.

И, наконец, интеллектуальный анализ данных дешевле. Оказывается, что выгоднее инвестировать деньги в решения интеллектуального анализа данных, чем постоянно содержать целую армию высококвалифицированных и дорогих профессиональных статистиков. Интеллектуальный анализ данных вовсе не исключает полностью человеческую роль, но значительно упрощает процесс поиска знаний, делая его доступным для более широкого круга аналитиков, не являющихся специалистами в статистике, математике или программировании.

Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?