Опубликован: 02.09.2013 | Доступ: свободный | Студентов: 430 / 54 | Длительность: 19:27:00
Самостоятельная работа 3:

Машинное обучение

4.2. Разработка приложения для решения задач кластеризации

4.2.1. Требования к приложению

Также в рамках данной лабораторной работы предлагается разработать приложение для кластеризации точек методом центров тяжести. К приложению предъявляются следующие требования:

  1. Загрузка данных из файла, имя которого указывается в качестве параметра командной строки.
  2. Выполнение кластеризации на заданное (в виде аргумента командной строки) число кластеров.
  3. Визуализация кластеризации в двумерном пространстве.
4.2.2. Структура приложения

Приложение будет состоять из двух модулей: основной (main.cpp) и модуль визуализации (drawingFunctions.cpp/h). Функции визуализации предоставляются в готовом виде и аналогичны описанным в разделе 4.1.2.

В основном модуле должна выполняться следующая последовательность действий:

  1. Загрузка данных для кластеризации из файла.
  2. Выполнение кластеризации методом центров тяжести на указанное количество кластеров.
  3. Визуализация результата.

Код, необходимый для загрузки и визуализации предоставляется в готовом виде, следовательно, требуется лишь написать вызов функции кластеризации kmeans.

После того, как код основного модуля будет дописан, предлагается запустить программу на предоставленных наборах данных (dataset1.yml, dataset2.yml, dataset3.yml, dataset4.yml) и проанализировать полученные результаты.

Контрольные вопросы

  1. Для чего в алгоритме опорных векторов применяются ядра?
  2. Какой эффект можно наблюдать при использовании машины опорных векторов с радиальным ядром с большим значением параметра \lambda ?
  3. Каким образом дерево решений разбивает пространство признаков?
  4. Для чего к деревьям решений применяется процедура отсечений?
  5. Применяются ли отсечения к деревьям решений в составе случайного леса?
  6. Происходит ли переобучение при увеличении количества деревьев в случайном лесе?
  7. Происходит ли переобучение при увеличении количества деревьев в модели градиентного бустинга?
  8. В чем заключается идея метода центров тяжести?

6. Дополнительные задания

  1. Реализуйте возможность сохранения и загрузки обученной модели в приложении для решения задач классификации.
  2. Реализуйте функцию вычисления матрицы ошибок классификации \varepsilon, где элемент \varepsilon_{i,j} равен количеству прецедентов выборки принадлежащих к классу j и отнесенных алгоритмом классификации к классу i.
  3. Реализуйте метод перекрестного контроля для подбора параметров алгоритмов обучения
Андрей Терёхин
Андрей Терёхин

Нахожу в тесте вопросы, которые в принципе не освещаются в лекции. Нужно гуглить на других ресурсах, чтобы решить тест, или же он всё же должен испытывать знания, полученные в ходе лекции?

Демянчик Иван
Демянчик Иван

В главе 14 мы видим понятие фильтра, но не могу разобраться, чем он является в теории и практике.

" Искомый объект можно описать с помощью фильтра F= \lbrace f_{x',y'},x' \in \lbrace0, ...,w_f \rbrace , y' \in \lbrace 0,...,h_f \rbrace \rbrace "