Опубликован: 22.04.2006 | Уровень: специалист | Доступ: свободно
Лекция 2:

Данные

< Лекция 1 || Лекция 2: 123456 || Лекция 3 >

Форматы хранения данных

Одна из основных особенностей данных современного мира состоит в том, что их становится очень много. Возможны четыре аспекта работы с данными: определение данных, вычисление, манипулирование и обработка (сбор, передача и др.).

При манипулировании данными используется структура данных типа "файл". Файлы могут иметь различные форматы.

Как уже было отмечено ранее, большинство инструментов Data Mining позволяют импортировать данные из различных источников, а также экспортировать результирующие данные в различные форматы.

Данные для экспериментов удобно хранить в каком-то одном формате.

В некоторых инструментах Data Mining эти процедуры называются импорт/экспорт данных, другие позволяют напрямую открывать различные источники данных и сохранять результаты Data Mining в одном из предложенных форматов.

Наиболее распространенные форматы, согласно опросу "Форматы хранения данных ", представлены на рис. 2.5.

Наиболее распространенные форматы хранения данных

Рис. 2.5. Наиболее распространенные форматы хранения данных

Наибольшее число опрошенных (23%) предпочитают хранить данные в формате той базы данных, которую они используют. В формате Text, CSV - 18%, по 14% опрошенных хранят данные в формате Text, space or tab separated и SAS; в формате Excel - 9%, SPSS - 8%, S-Plus/R - 4%, Weka ARFF - 6%, в других форматах инструментов Data Mining - 2%.

Как видим из результатов опроса, наиболее распространенным форматом хранения данных для Data Mining выступают базы данных.

< Лекция 1 || Лекция 2: 123456 || Лекция 3 >
Мария Боголюбова
Мария Боголюбова
Россия
Кирилл Зайцев
Кирилл Зайцев
Россия, Дедовск