Задачи Data Mining. Информация и знания
Информация
Сейчас остановимся на еще не рассмотренном понятии информации. Несмотря на распространенность данного понятия, мы не всегда можем точно его определить и отличить от понятия данных. Информация, по своей сути, имеет многогранную природу. С развитием человечества, в том числе, с развитием компьютерных технологий, информация обретает все новые и новые свойства.
Обратимся к словарю. Информация (лат. informatio) -
- любые сообщения о чем-либо;
- сведения, являющиеся объектом хранения, переработки и передачи (например генетическая информация);
- в математике (кибернетике) - количественная мера устранения неопределенности (энтропия), мера организации системы; в теории информации - раздел кибернетики, изучающий количественные закономерности, которые связаны со сбором, передачей, преобразованием и вычислением информации.
Информация - любые, неизвестные ранее сведения о каком-либо событии, сущности, процессе и т.п., являющиеся объектом некоторых операций, для которых существует содержательная интерпретация.
Под операциями здесь подразумевается восприятие, передача, преобразование, хранение и использование. Для восприятия информации необходима некоторая воспринимающая система, которая может интерпретировать ее, преобразовывать, определять соответствие определенным правилам и т.п. Таким образом, понятие информации следует рассматривать только при наличии источника и получателя информации, а также канала связи между ними.
Свойства информации
- Полнота информации.
Это свойство характеризует качество информации и определяет достаточность данных для принятия решений, т.е. информация должна содержать весь необходимый набор данных.
Пример. "Продажи товара А начнут сокращаться" Эта информация неполная, поскольку неизвестно, когда именно они начнут сокращаться.
Пример полной информации. "Начиная с первого квартала, продажи товара А начнут сокращаться." Этой информации достаточно для принятия решений.
- Достоверность информации.
Информация может быть достоверной и недостоверной. В недостоверной информации присутствует информационный шум, и чем он выше, тем ниже достоверность информации.
- Ценность информации.
Ценность информации не может быть абстрактной. Информация должна быть полезной и ценной для определенной категории пользователей.
- Адекватность информации.
Это свойство характеризует степень соответствия информации реальному объективному состоянию. Адекватная информация - это полная и достоверная информация.
- Актуальность информации.
Информация должна быть актуальной, т.е. не устаревшей. Это свойство информации характеризует степень соответствия информации настоящему моменту времени.
- Ясность информации.
Информация должна быть понятна тому кругу лиц, для которого она предназначена.
- Доступность информации.
Доступность характеризует меру возможности получить определенную информацию. На это свойство информации влияют одновременно доступность данных и доступность адекватных методов.
- Субъективность информации.
Информация носит субъективный характер, она определяется степенью восприятия субъекта (получателя информации ).
Требования, предъявляемые к информации
- Динамический характер информации.
Информация существует только в момент взаимодействия данных и методов, т.е. в момент информационного процесса. Остальное время она пребывает в состоянии данных.
- Адекватность используемых методов.
Информация извлекается из данных. Однако в результате использования одних и тех же данных может появляться разная информация. Это зависит от адекватности выбранных методов обработки исходных данных.
Данные, по своей сути, являются объективными. Методы являются субъективными, в основе методов лежат алгоритмы, субъективно составленные и подготовленные. Таким образом, информация возникает и существует в момент диалектического взаимодействия объективных данных и субъективных методов.
Для бизнеса информация является исходной составляющей принятия решений.
Всю информацию, возникающую в процессе функционирования бизнеса и управления им, можно классифицировать определенным образом. В зависимости от источника получения, информацию разделяют на внутреннюю и внешнюю (например, информация, описывающая явления, происходящие за пределами фирмы, но имеющие к ней непосредственное отношение).
Также информация может быть классифицирована на фактическую и прогнозную. К фактической информации о бизнесе относится информация, характеризующая свершившиеся факты; она является точной. Прогнозная информация является рассчитываемой или предполагаемой, поэтому ее нельзя считать точной, она может иметь определенную погрешность.