Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки? Спасибо! |
Системы деловой осведомленности (Business Intelligence Systems) и хранилища данных
Технологии обработки данных
Технология диалоговой аналитической обработки (OLAP)
Концепция многомерного представления данных предполагает, что элементы данных (фактическая информация) являются точками многомерного пространства, размерности которого представляют собой содержательное описание таких фактов (точку зрения на них). В приложениях обработки многомерных данных сохраняются все проблемы с визуализацией многомерных массивов данных. Самые продвинутые, дорогостоящие и элитарные решения пребывают в пределах своих узких предметных ниш.
Конечные пользователи не намерены каким-то образом продвигать за свой счет электронные таблицы в интерфейс с многомерными БД. Конечно, электронные таблицы, в силу их удобства и простоты, являются излюбленным инструментом конечных пользователей. Однако, как показывает опыт, электронные таблицы хороши лишь тогда, когда они "заточены" под многомерность конкретных предметных областей.
Приложения OLAP зачастую бывают весьма громоздкими, обычно их рентабельность отвечает использованию в составе корпоративных рабочих групп, например в аналитических службах. Вообще, для эффективного использования решений OLAP нужна поддержка корпоративной инфраструктуры.
Как показывает анализ, Web-архитектуры быстро вытесняют традиционные клиент-серверные приложения для целого ряда категорий программного обеспечения, и рынок корпоративных OLAP-решений здесь не исключение.
Это направление стремительно развивается за счет появления различных Web-OLAP инструментов на базе HTML- и Java-технологий от известных поставщиков и быстро растущих новых компаний. В связи с расширением контингента пользователей продукты Web-OLAP разрабатываются для выполнения несколько иного анализа, чем традиционные клиент-серверные инструменты. Происходит переход от инструментальных средств исследования данных, ориентированных на специалистов-аналитиков, к готовым аналитическим приложениям, доступным для более широкого круга пользователей.
В табл. 4.1 приведены критерии, которые определяют успех Web-OLAP-продуктов.
Интеллектуальная обработка данных (Data Mining)
Возникновение Data Mining (добыча данных) связано с наличием противоречия между теоретическими методами прикладной статистики и практикой решения реальных задач. Синонимами этого понятия являются обнаружение знаний в БД и интеллектуальный анализ данных.
Стимулом развития технологии Data Mining явился прорыв в технологиях электронного хранения больших объемов данных — деятельность любого предприятия сопровождается регистрацией и записью на электронные носители всех подробностей его деятельности.
Очевидно, что без технологии переработки потока этих "сырых" данных (raw data), последние образуют просто большую свалку.
Требования к технологии переработки:
- данные имеют неограниченный объем;
- данные являются разнородными по типу (количественными, качественными, текстовыми);
- результаты должны быть понятны и конкретны;
- инструменты для обработки сырых данных должны быть просты в использовании.
Традиционная прикладная статистика не справляется с поставленными задачами. Главная причина — она работает с фиктивными, средними величинами (концепция усреднения по выборке). Ее методы полезны при проверке заранее сформулированных гипотез (verification-driven data mining) и для грубого предварительного анализа, составляющего основу OLAP (online analytical processing).
В основу технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют закономерности, свойственные подвыборкам данных, которые могут быть выражены в понятной человеку форме. Поиск шаблонов проводится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.
Понятно, что такие шаблоны должны быть нетривиальны (unexpected — неожиданные регулярности в данных, которые составляют так называемые скрытые знания, Hidden knowledge).
Есть понимание того, что "сырые" данные содержат глубинный пласт знаний и его нужно раскопать.
Различия в формулировках задач диалоговой аналитической обработки данных и интеллектуального анализа данных приведены в табл. 4.2.
OLAP | Data Mining |
---|---|
Каковы средние показатели травматизма для курящих и некурящих? | Встречаются ли точные шаблоны в описании людей, подверженных повышенному травматизму? |
Каково среднее соотношение размеров телефонных счетов существующих клиентов со счетами бывших клиентов? | Имеются ли характерные портреты клиентов, которые, по всей видимости, собираются отказаться от услуг телефонной связи? |
Какова средняя величина ежедневных покупок по украденной и не украденной карточке? | Существуют ли стереотипные схемы покупок для случая мошенничества с кредитными карточками? |
Основные бизнес-приложения Data Mining
- Розничная торговля (предполагается, что собирается информация о каждой покупке)
- Анализ покупательской корзины (анализ сходства) — выявление товаров, которые покупаются вместе. Необходимо для рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах
- Исследование временных шаблонов. Создание запасов
- Создание прогнозирующих моделей. Характер потребностей различных категорий покупателей с определенным поведением (приобретение товаров известных марок или распродажа). Разработка направленных мероприятий по продвижению товаров
- Банковское дело
- Выявление мошенничества с кредитными карточками. Анализ транзакций, которые оказались мошенническими
- Сегментация клиентов. Маркетинговая политика банка становится более целенаправленной
- Прогнозирование изменения клиентуры, модели ценности своих клиентов и соответствующее обслуживание каждой категории
- Телекоммуникации
- Анализ записей о подробных характеристиках вызовов — выявление категорий клиентов с похожими стереотипами поведения и разработка привлекательных наборов цен и услуг
- Выявление лояльности клиентов. Определение характеристик клиентов, которые однажды воспользовавшись услугами компании, и с большей долей вероятности воспользуются еще раз
- Страхование
- Выявление мошенничества. Определенные стереотипы в заявлениях о выплате страховки, характеризующие взаимоотношения между юристами, врачами и заявителями
- Анализ риска. Путем выявления факторов, связанных с оплаченными заявлениями, можно уменьшить свои потери
Необходимость автоматизированного интеллектуального анализа данных стала очевидной, в первую очередь, из-за огромных массивов исторической и вновь собираемой информации. Трудно даже приблизительно оценить объем ежедневных данных, накапливаемых различными компаниями, государственными, научными и медицинскими организациями. По мнению исследовательского центра компании GTE, только научные институты собирают ежедневно около терабайта новых данных.
Другой причиной роста популярности интеллектуального анализа данных ( data mining ) является объективность получаемых результатов. Человеку-аналитику, в отличие от машины, всегда присущ субъективизм: он в той или иной степени является заложником уже сложившихся представлений. Иногда это полезно, но чаще приносит большой вред.
И, наконец, интеллектуальный анализ данных дешевле. Оказывается, что выгоднее инвестировать деньги в решения интеллектуального анализа данных, чем постоянно содержать целую армию высококвалифицированных и дорогих профессиональных статистиков. Интеллектуальный анализ данных вовсе не исключает полностью человеческую роль, но значительно упрощает процесс поиска знаний, делая его доступным для более широкого круга аналитиков, не являющихся специалистами в статистике, математике или программировании.