Машинное обучение
Постановка задачи обучения по прецедентам такова. Имеется множество объектов (ситуаций) и множество возможных ответов. Между объектами и ответами существует некоторая зависимость, которая нам неизвестна. Мы располагаем совокупностью прецедентов – пар "объект, ответ", называемой обучающей выборкой. На этой основе требуется восстановить зависимость, то есть построить алгоритм, составляющими которого являются продукции , способный для любого объекта выдать достаточно точный ответ.
Ниже рассматривается применение генетических алгоритмов к автоматизации вывода системы продукций, которые применяются также и в экспертных системах. Изложены классические подходы:1) Мичиганский, где в качестве особи используется отдельная продукция, а популяция состоит из множества продукций; 2) Питтсбургский, в котором особь представляет полное множество продукций, а популяцию образуют различные множества продукций. Описаны проблемно-ориентированные генетические операторы кроссинговера и мутации для указанных методов представления систем продукций. Представлены также современные продукционные системы классификации XCS. Кроме того, рассмотрено применение этого подхода к решению задач прогнозирования.
Машинное обучение (machine learning) первоначально применялось в разработке компьютерных программ, способных производить новые или обновлять накопленные знания, используя входную информацию в виде примеров. В большинстве случаев для этих целей ранее применялись не алгоритмические, а эвристические методы изучения. Одним из основных направлений исследований в этой области является применение ГА. При этом основным объектом исследования являются продукционные системы, то есть системы правил вида: ЕСЛИ <условие> ТО <действие> (которые используются в классических экспертных системах). Одной из самых серьезных проблем (и трудно формализуемых) при разработке экспертных систем является извлечение знаний у экспертов в виде системы правил (продукций). Поэтому была предпринята попытка автоматизировать этот процесс (или упростить и повысить эффективность уже имеющихся знаний в виде продукций). Здесь в качестве потенциального решения, особи популяции, рассматривается продукция (или система продукций). Как мы знаем, для использования генетических алгоритмов, прежде всего, надо разработать:1) эффективный способ кодирования решения; 2) основные операторы ГА; 3) определить целевую (фитнесс-) функцию. Как правило, здесь используется концепция обучения с учителем. При этом дано множество примеров событий (обучающая выборка) с принадлежностью каждого из них к определенной концепции (классу). Необходимо получить множество правил – продукций, представляющих (описывающих) данное множество событий.
Проблема состоит в том, чтобы создать систему, которая изучит концепции, то есть, определит решающие правила для всех положительных и отрицательных примеров. Мы можем оценивать и сравнивать потенциальные решения в терминах значений ошибок и сложности построенных правил. Система должна быть способна выполнить классификацию заранее неизвестных примеров, или выполнять (возможно, более чем одну) классификацию частично определенных описаний.
При машинном обучении, основанном на ГА, применяются два основных подхода:
- Мичиганский (разработанный в Мичиганском университете основоположником ГА Дж. Холландом), где особь представляет отдельную продукцию, а популяция состоит из множества продукций;
- Питтсбургский (соответственно предложенный в университете Питтсбурга де Йонгом – учеником Дж. Холланда), где в качестве особи (потенциального решения) используется закодированное полное множество продукций, а популяцию образуют различные множества продукций.
Исторически Дж. Холландом [1], основоположником ГА, первым по времени был разработан Мичигангский подход, но в настоящее время на практике более распространен Питтсбургский подход [2,3], который мы и рассмотрим.