Задачи Data Mining. Информация и знания
Знания
Знания - совокупность фактов, закономерностей и эвристических правил, с помощью которых решается поставленная задача.
Итак, формирование информации происходит в процессе сбора и передачи, т.е. обработки данных. Каким же образом из информации получают знания?
Все чаще истинные знания образуются на основе распределенных взаимосвязей разнородной информации [19]. Когда информация собрана и передана для получения явно не определенного заранее результата, то вы получаете знания. Сама по себе информация в чистом виде бессмысленна. Отсюда следует вывод, что информация - это чье-то тактическое знание, передаваемое в виде символов и при помощи каких-либо прикладных средств.
По определению Денхема Грэя, " знания - это абсолютное использование информации и данных, совместно с потенциалом практического опыта людей, способностями, идеями, интуицией, убежденностью и мотивациями".
Знания имеют определенные свойства, которые отличают их от информации [20].
- Структурированность. Знания должны быть "разложены по полочкам".
- Удобство доступа и усвоения. Для человека - это способность быстро понять и запомнить или, наоборот, вспомнить; для компьютерных знаний - средства доступа к знаниям.
- Лаконичность. Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает "коэффициент полезного содержания". В данный список лаконичность была добавлена из-за всем известной проблемы шума и мусорных документов, характерной именно для компьютерной информации - Internet и электронного документооборота.
- Непротиворечивость. Знания не должны противоречить друг другу.
- Процедуры обработки. Знания нужны для того, чтобы их использовать. Одно из главных свойств знаний - возможность их передачи другим и способность делать выводы на их основе. Для этого должны существовать процедуры обработки знаний. Способность делать выводы означает для машины наличие процедур обработки и вывода и подготовленность структур данных для такой обработки, т.е. наличие специальных форматов знаний.
Сопоставление и сравнение понятий "информация", "данные", "знание"
Для того чтобы уверенно оперировать понятиями " информация ", "данные", "знание", необходимо не только понимать суть этих понятий, но и прочувствовать отличия между ними. Однако, одной интуитивной интерпретации этих понятий здесь недостаточно. Сложность понимания отличий вышеупомянутых понятий - в их кажущейся синонимичности. Вспомним, что понятие Data Mining переводится на русский язык при помощи этих же трех понятий: как добыча данных, извлечение информации, раскопка знаний.
Для начала сделаем попытку разобраться в этих терминах на простых примерах.
- Студент, который сдает экзамен, нуждается в данных.
- Студент, который сдает экзамен, нуждается в информации.
- Студент, который сдает экзамен, нуждается в знаниях.
При рассмотрении первого варианта - студент нуждается в данных - возникает мысль, что студенту нужны данные, например, для вычислений. Информацией во втором варианте может выступать конспект или учебник. В результате их использования студент получает лишь информацию, которая в определенных случаях может перейти в знания. Третий вариант звучит наиболее логично.
Информация, в отличие от данных, имеет смысл.
Понятия " информация " и " знания ", с философской точки зрения, являются понятиями более высокого уровня, чем "данные", которое возникло относительно недавно.
Понятие " информации " непосредственно связано с сущностью процессов внутри информационной системы, тогда так понятие "знание" скорее ориентировано на качество процессов. Понятие "знание" тесно связано с процессом принятия решений.
Несмотря на различия, рассмотренные понятия, как уже отмечалось ранее, не являются разрозненными и несвязанными. Они есть часть одного потока: у истока его находятся данные, в процессе передачи которых возникает информация, и в результате использования информации, при определенных условиях, возникают знания.
В лекции уже отмечалось, что в процессе движения вверх по информационной пирамиде объемы данных переходят в ценность знаний. Однако большие объемы данных вовсе не означают и, тем более, не гарантируют получение знаний. Существует определенная зависимость ценности полученных знаний от качества и мощности процедур обработки данных. Типичным примером информации, которую нельзя превратить в знание, является текст на иностранном языке. При отсутствии словаря и переводчика эта информация вообще не имеет ценности, она не может перейти в знание. При наличии словаря процесс перехода от информации к знанию возможен, но длителен и трудоемок. При наличии переводчика информация действительно переходит в знания.
Таким образом, для получения ценных знаний необходимы качественные процедуры обработки. Процесс перехода от данных к знаниям занимает много времени и стоит дорого. Поэтому очевидно, что технология Data Mining с ее мощными и разнообразными алгоритмами является инструментом, при помощи которого, продвигаясь вверх по информационной пирамиде, мы можем получать действительно качественные и ценные знания.