Организационные и человеческие факторы в Data Mining. Стандарты Data Mining
Человеческие факторы. Роли в Data Mining
Человеческий фактор при внедрении Data Mining - это наличие и квалификационное соответствие специалистов, готовых работать с Data Mining.
Специалисты компании, вовлеченные в процесс Data Mining, исполняют одну из ролей, которые показаны на рис. 21.1: специалист предметной области, администратор баз данных, специалист по добыче данных.
Роли между специалистами распределены следующим образом.
Специалист предметной области (Domain experts) - специалист, имеющий знания о окружении бизнеса, процессах, заказчиках, клиентах, потребителях, конкурентах, т.е. о предметной области.
Знания о предметной области включают факты, которые к данной области относятся, закономерности, характерные для нее, гипотезы о возможных связях между явлениями, процессами и фактами в ней, процедуры для решения типовых задач. Экспертные знания - это те знания, которыми располагает специалист в некоторой предметной области.
Администратор баз данных (Database administrator) - специалист, имеющий знания о том, где и каким образом хранятся данные, как получить к ним доступ и как связать между собой эти данные.
Администратор базы данных отвечает за выработку требований к базе данных, за ее проектирование, реализацию, эффективное использование и сопровождение.
Другими обязанностями администратора баз данных могут быть: определение статуса информации и статуса пользователей; модификация данных; обеспечение целостности данных; загрузка данных и ведение БД; защита данных; обеспечение восстановления баз данных; сбор и статистическая обработка обращений к БД; анализ эффективности функционирования базы данных.
Специалист по добыче данных (Mining specialists) - специалист по анализу данных, который имеет, как минимум, основы статистических знаний.
Этот специалист должен быть способен применять технологии Data Mining и интерпретировать полученные результаты. Он должен уметь устанавливать связи со специалистом по предметной области для управления полученными результатами и с администратором БД для получения доступа к данным в запрос на свои действия.
Специалист по добыче данных ответственен за получение необходимых для Data Mining сведений из различных источников, а также за получение информации от специалистов в данной предметной области. Специалист по добыче данных должен быть также своего рода постановщиком задач. Он должен уметь получать необходимую информацию и входные данные для Data Mining-системы у специалистов по предметной области, задавать вопросы с целью уточнения сведений и т.д.
Первые две роли из описанных выше в том или ином виде присутствуют в любой компании. Третья роль в первое время внедрения Data Mining может исполняться консультантом другой компании. После приобретения соответствующих знаний, это место может занять человек из Вашей компании, например - маркетинговый аналитик.
Одной из основных трудностей при выборе специалистов либо внутри Вашей организации, либо сторонних консультантов является разнообразие областей, которые должны быть объединены в одном процессе. Процесс Data Mining требует наличия связей между бизнесом, анализом и информационными технологиями, чтобы обеспечить непрерывный двунаправленный поток информации (данные - информация - решения), который был рассмотрен в одной из начальных лекций курса.
Три роли, рассмотренные выше, являются основными, и без них процесс Data Mining не может быть осуществлен. Часто в процесс также вовлечены другие специалисты по информационным технологиям и менеджеры проектов.
Среди них могут быть:
- менеджер проектов (Project Manager);
- специалист по IT Архитектуре (IT Architect);
- специалист по Архитектуре Решений (Solution Architect);
- специалист по Архитектуре Данных (Data Architect);
- специалист по Моделированию данных (Data Modeler);
- эксперт Data Mining (Data Mining Expert);
- деловой Аналитик (Business Analyst).
Каждая из этих ролей может быть отведена специалисту внутри организации либо стороннему специалисту. Процесс найма третьих лиц, т.е. сторонних специалистов для выполнения определенных работ, называют аутсорсингом (outsourcing). Воспользовавшись услугами приглашенных специалистов, компании могут добиться существенного уменьшения затрат на оплату труда. О других преимуществах аутсорсинга для Data Mining будет рассказано в следующем разделе курса.
Роли Data Mining, в зависимости от конечной цели работ, распределяются следующим образом:
- исследователи (написание исследовательских докладов и статей);
- практикующие аналитики (решение реальных и практических задач анализа данных);
- разработчики программного обеспечения (написание Data Mining- программного обеспечения);
- студенты (в настоящее время обучающиеся в учебных заведениях);
- бизнес-аналитики (главным образом, оценивающие результаты использования data mining);
- менеджеры (управляют одним или большим количеством проектов);
- другие.
Согласно последним опросам на KDnuggets, наибольшее число из голосующих - это практикующие аналитики, использующие технологию Data Mining для анализа реальных данных (34%), и исследователи (19%), далее идут студенты, бизнес-аналитики, разработчики программного обеспечения и менеджеры.
Теперь мы рассмотрим процесс Data Mining в разрезе работ, выполняемых описанными выше специалистами, коснемся распределения их обязанностей, укажем, где эти работы пересекаются в процессе достижения бизнес-цели.
Напомним, что процесс Data Mining практически никогда не является линейным, в большинстве случаев это итеративный циклический процесс. Именно итеративность гарантируют процессу Data Mining такой результат, который будет адаптирован под решение конкретной задачи.
Процесс Data Mining, с точки зрения человеческого фактора, является постоянным взаимодействием трех основных специалистов.
Взаимодействие специалиста по добыче данных и специалиста по предметной области осуществляется в двух точках соприкосновения (не забываем при этом, что Data Mining - итеративный процесс).
Первая точка - анализ предметной области, где определяются задачи и требования к будущей системе. Специалист по добыче данных должен вникнуть в предметную область, изучить ее базовые термины, другими словами, он должен провести анализ предметной области. На основании знаний методов и инструментов Data Mining специалист по добыче данных предлагает вариант решения проблемы.
Второй точкой соприкосновения указанных выше специалистов является интерпретация результатов, полученных в результате Data Mining.
Взаимодействие специалиста по добыче данных и администратора баз данных осуществляется на этапах анализа требований к данным и сбора данных. Непосредственно подготовка данных для Data Mining может осуществляться специалистом по добыче данных самостоятельно либо во взаимодействии с администратором баз данных.
Взаимодействие трех специалистов осуществляется на завершающих этапах Data Mining при проверке работоспособности системы, например, при сравнении прогнозных результатов с реальными. При необходимости процесс Data Mining возвращается на один из предыдущих этапов.
От того, насколько консолидированы будут действия специалистов из разных областей, зависит длительность проекта и качество полученных результатов.
Если в проекте Data Mining присутствует роль руководителя, на него возлагается координация и контроль работ, проводимых описанными выше специалистами.