Московский государственный университет путей сообщения
Опубликован: 10.10.2014 | Доступ: свободный | Студентов: 869 / 193 | Длительность: 22:10:00
Лекция 7:

Машинное обучение

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >
Аннотация: Эта лекция посвящена методам построения моделей, способных обучаться, а также разработке алгоритмов для их построения и обучения. Различают два типа обучения: 1) обучение по прецедентам (индуктивное обучение); 2) дедуктивное обучение, предполагающее формализацию знаний экспертов и создание на этой основе баз знаний. Второй тип обучения относится к экспертным системам, поэтому машинное обучение принято считать синонимом индуктивного. Именно о нем и пойдет речь в этой лекции.
Ключевые слова: постановка задачи, ПО, объект, алгоритм, продукции, множества, оператор кроссинговера, оператор мутации, системы классификации, прогнозирование, машинное обучение, learning, извлечение знаний, операторы, обучающая выборка, множество событий, целый, переменная, значение, гипотеза, атрибут, кодирование, поле, расстояние, система продукций, процент, система классификации, входной, список, классификатор, алфавит, решающее правило, анализ, мутация, связь, вычисление, prediction, error, fitness, класс, программа, представление, компонент, гиперплоскость, коррекция, счетчик, параметр, отображение, стоимость, константы, точность, эволюция, вероятность, вывод, потомок, функция, бит, индекс, адрес, выход, Исход, логический, подмножество, дисперсия, инициализация, имя переменной, диапазон, максимум, нижняя граница, целевая функция, Дополнение, определение, поиск, погрешность

Постановка задачи обучения по прецедентам такова. Имеется множество объектов (ситуаций) и множество возможных ответов. Между объектами и ответами существует некоторая зависимость, которая нам неизвестна. Мы располагаем совокупностью прецедентов – пар "объект, ответ", называемой обучающей выборкой. На этой основе требуется восстановить зависимость, то есть построить алгоритм, составляющими которого являются продукции , способный для любого объекта выдать достаточно точный ответ.

Ниже рассматривается применение генетических алгоритмов к автоматизации вывода системы продукций, которые применяются также и в экспертных системах. Изложены классические подходы:1) Мичиганский, где в качестве особи используется отдельная продукция, а популяция состоит из множества продукций; 2) Питтсбургский, в котором особь представляет полное множество продукций, а популяцию образуют различные множества продукций. Описаны проблемно-ориентированные генетические операторы кроссинговера и мутации для указанных методов представления систем продукций. Представлены также современные продукционные системы классификации XCS. Кроме того, рассмотрено применение этого подхода к решению задач прогнозирования.

Машинное обучение (machine learning) первоначально применялось в разработке компьютерных программ, способных производить новые или обновлять накопленные знания, используя входную информацию в виде примеров. В большинстве случаев для этих целей ранее применялись не алгоритмические, а эвристические методы изучения. Одним из основных направлений исследований в этой области является применение ГА. При этом основным объектом исследования являются продукционные системы, то есть системы правил вида: ЕСЛИ <условие> ТО <действие> (которые используются в классических экспертных системах). Одной из самых серьезных проблем (и трудно формализуемых) при разработке экспертных систем является извлечение знаний у экспертов в виде системы правил (продукций). Поэтому была предпринята попытка автоматизировать этот процесс (или упростить и повысить эффективность уже имеющихся знаний в виде продукций). Здесь в качестве потенциального решения, особи популяции, рассматривается продукция (или система продукций). Как мы знаем, для использования генетических алгоритмов, прежде всего, надо разработать:1) эффективный способ кодирования решения; 2) основные операторы ГА; 3) определить целевую (фитнесс-) функцию. Как правило, здесь используется концепция обучения с учителем. При этом дано множество примеров событий (обучающая выборка) с принадлежностью каждого из них к определенной концепции (классу). Необходимо получить множество правил – продукций, представляющих (описывающих) данное множество событий.

Проблема состоит в том, чтобы создать систему, которая изучит концепции, то есть, определит решающие правила для всех положительных и отрицательных примеров. Мы можем оценивать и сравнивать потенциальные решения в терминах значений ошибок и сложности построенных правил. Система должна быть способна выполнить классификацию заранее неизвестных примеров, или выполнять (возможно, более чем одну) классификацию частично определенных описаний.

При машинном обучении, основанном на ГА, применяются два основных подхода:

  1. Мичиганский (разработанный в Мичиганском университете основоположником ГА Дж. Холландом), где особь представляет отдельную продукцию, а популяция состоит из множества продукций;
  2. Питтсбургский (соответственно предложенный в университете Питтсбурга де Йонгом – учеником Дж. Холланда), где в качестве особи (потенциального решения) используется закодированное полное множество продукций, а популяцию образуют различные множества продукций.

Исторически Дж. Холландом [1], основоположником ГА, первым по времени был разработан Мичигангский подход, но в настоящее время на практике более распространен Питтсбургский подход [2,3], который мы и рассмотрим.

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >