Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный
Лекция 4:

Задачи Data Mining. Информация и знания

< Лекция 3 || Лекция 4: 12345 || Лекция 5 >

Знания

Знания - совокупность фактов, закономерностей и эвристических правил, с помощью которых решается поставленная задача.

Итак, формирование информации происходит в процессе сбора и передачи, т.е. обработки данных. Каким же образом из информации получают знания?

Все чаще истинные знания образуются на основе распределенных взаимосвязей разнородной информации [19]. Когда информация собрана и передана для получения явно не определенного заранее результата, то вы получаете знания. Сама по себе информация в чистом виде бессмысленна. Отсюда следует вывод, что информация - это чье-то тактическое знание, передаваемое в виде символов и при помощи каких-либо прикладных средств.

По определению Денхема Грэя, " знания - это абсолютное использование информации и данных, совместно с потенциалом практического опыта людей, способностями, идеями, интуицией, убежденностью и мотивациями".

Знания имеют определенные свойства, которые отличают их от информации [20].

  1. Структурированность. Знания должны быть "разложены по полочкам".
  2. Удобство доступа и усвоения. Для человека - это способность быстро понять и запомнить или, наоборот, вспомнить; для компьютерных знаний - средства доступа к знаниям.
  3. Лаконичность. Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает "коэффициент полезного содержания". В данный список лаконичность была добавлена из-за всем известной проблемы шума и мусорных документов, характерной именно для компьютерной информации - Internet и электронного документооборота.
  4. Непротиворечивость. Знания не должны противоречить друг другу.
  5. Процедуры обработки. Знания нужны для того, чтобы их использовать. Одно из главных свойств знаний - возможность их передачи другим и способность делать выводы на их основе. Для этого должны существовать процедуры обработки знаний. Способность делать выводы означает для машины наличие процедур обработки и вывода и подготовленность структур данных для такой обработки, т.е. наличие специальных форматов знаний.

Сопоставление и сравнение понятий "информация", "данные", "знание"

Для того чтобы уверенно оперировать понятиями " информация ", "данные", "знание", необходимо не только понимать суть этих понятий, но и прочувствовать отличия между ними. Однако, одной интуитивной интерпретации этих понятий здесь недостаточно. Сложность понимания отличий вышеупомянутых понятий - в их кажущейся синонимичности. Вспомним, что понятие Data Mining переводится на русский язык при помощи этих же трех понятий: как добыча данных, извлечение информации, раскопка знаний.

Для начала сделаем попытку разобраться в этих терминах на простых примерах.

  1. Студент, который сдает экзамен, нуждается в данных.
  2. Студент, который сдает экзамен, нуждается в информации.
  3. Студент, который сдает экзамен, нуждается в знаниях.

При рассмотрении первого варианта - студент нуждается в данных - возникает мысль, что студенту нужны данные, например, для вычислений. Информацией во втором варианте может выступать конспект или учебник. В результате их использования студент получает лишь информацию, которая в определенных случаях может перейти в знания. Третий вариант звучит наиболее логично.

Информация, в отличие от данных, имеет смысл.

Понятия " информация " и " знания ", с философской точки зрения, являются понятиями более высокого уровня, чем "данные", которое возникло относительно недавно.

Понятие " информации " непосредственно связано с сущностью процессов внутри информационной системы, тогда так понятие "знание" скорее ориентировано на качество процессов. Понятие "знание" тесно связано с процессом принятия решений.

Несмотря на различия, рассмотренные понятия, как уже отмечалось ранее, не являются разрозненными и несвязанными. Они есть часть одного потока: у истока его находятся данные, в процессе передачи которых возникает информация, и в результате использования информации, при определенных условиях, возникают знания.

В лекции уже отмечалось, что в процессе движения вверх по информационной пирамиде объемы данных переходят в ценность знаний. Однако большие объемы данных вовсе не означают и, тем более, не гарантируют получение знаний. Существует определенная зависимость ценности полученных знаний от качества и мощности процедур обработки данных. Типичным примером информации, которую нельзя превратить в знание, является текст на иностранном языке. При отсутствии словаря и переводчика эта информация вообще не имеет ценности, она не может перейти в знание. При наличии словаря процесс перехода от информации к знанию возможен, но длителен и трудоемок. При наличии переводчика информация действительно переходит в знания.

Таким образом, для получения ценных знаний необходимы качественные процедуры обработки. Процесс перехода от данных к знаниям занимает много времени и стоит дорого. Поэтому очевидно, что технология Data Mining с ее мощными и разнообразными алгоритмами является инструментом, при помощи которого, продвигаясь вверх по информационной пирамиде, мы можем получать действительно качественные и ценные знания.

< Лекция 3 || Лекция 4: 12345 || Лекция 5 >
Михаил Щукин
Михаил Щукин
Россия, Москва, МТУСИ