Московский государственный технологический университет «Станкин»
Опубликован: 18.05.2005 | Доступ: свободный | Студентов: 4951 / 956 | Оценка: 3.93 / 3.84 | Длительность: 11:45:00
ISBN: 978-5-9556-0024-6
Специальности: Программист

Лекция 5: Общение с ЭВМ на естественном языке. Системы речевого общения

< Лекция 4 || Лекция 5: 12345 || Лекция 6 >
Аннотация: В лекции рассматриваются проблемы понимания естественного языка и дается методология анализа текстов на естественном языке, состоящая из четырех этапов: морфологический анализ, синтаксический анализ, семантическая интерпретация и проблемный анализ. Рассматриваются общие вопросы создания системы речевого общения и построения акустического анализатора и синтезатора речевых сообщений.
Ключевые слова: машинный перевод, проблема понимания естественного языка, предметной области, ПО, проблема планирования, модель представления знаний, логический вывод, эллипсис, меню, естественный язык, подмножество, транслятор, слово, высказывание, словосочетание, дискурс, лексема, морфема, аффикс, префикс, суффикс, инфикс, омоним, синоним, анафора, морфологический анализ, синтаксический анализ, семантическая интерпретация, семантическая сеть, атрибутивность, определитель, бинарным отношением, представление знаний, Пирамида, проблемный анализ, здравый смысл, stylus, лингвистическая модель, анализ, распознавание, место, поток информации, телефонная сеть, автоматизированная система управления, АСУ, Синхронный, единица, логический, акустические волны, функция, передаточная функция, значение, компонент, модуляция, speech, engine, система распознавания, speech recognition, программный продукт, фирма, SDK

Одной из популярных тем исследований ИИ, начиная с 50-х годов, является компьютерная лингвистика, и, в частности, машинный перевод. Появляются основополагающие работы Хомского [ 5.1 ] , Вудса [ 5.2 ] , Винограда [ 5.3 ] , Шенка [ 5.4 ] за рубежом и работы Попова [ 5.5 ] , Мальковского [ 5.6 ] ,Кузина [ 5.7 ] у нас в стране. Эти исследования показали, что проблемы компьютерной лингвистики не так просты и требуют дальнейшей проработки и развития.

Проблемы понимания естественного языка

Проблемы понимания естественного языка, будь то текст или речь, во многом зависят от знания предметной области. Понимание языка требует знаний о целях говорящего и о контексте. Необходимо также учитывать недосказанность или иносказательность. Например, даже в таком простом предложении "Ваня встретил Машу на поляне с цветами" нам не понятно, кто же был с цветами: Ваня, Маша или поляна? Еще один пример "Врач бегло говорила по-английски". Разбирая это предложение, необходимо в результате разбора зафиксировать, что врач была женщина. Крылатая фраза знаменитого русского лингвиста, академика Л.В.Щербы "Глокая куздра штеко будланула бокра и курдячит бокренка" говорит о том, что такая "непонятная" фраза построена по всем правилам русского языка, не вызывает проблем с грамматическим разбором такого предложения, но вызывает проблемы с пониманием. Попробуем сформулировать лишь некоторые проблемы понимания естественного языка.

  1. Проблема СМЫСЛ-ТЕКСТ. Об этом только что говорилось и приведем еще один пример по этой проблеме. В предложении "Какой завод заказал оборудование для конвертерного цеха в Бельгии?" неясен смысл: был ли сделан заказ в Бельгии или цех находится в Бельгии.
  2. Проблема планирования возникает при необходимости вести диалог, например, на тему "Куда Вы хотите лететь?". В этом случае нужно глубокое знание предметной области (номера рейсов, время прилета-отлета, цены и т.д.).
  3. Проблема равнозначности. Будут ли равнозначны два предложения "У дома стоит слон" и "У дома стоит существо с хоботом и бивнями"? На первый взгляд нет сомнений в равнозначности этих предложений. А если в базе знаний существо с хоботом и бивнями определено двумя значениями: слон и мамонт, то такие сомнения, наверное, появятся.
  4. Проблемы моделей участников общения. У участников общения должны быть сопоставимые модели представления знаний, необходимая глубина понимания, возможность логического вывода, возможность действия.
  5. Проблема эллиптических конструкций, то есть опущенных элементов диалога. Например, в пословице "Береги платье снову, а честь - смолоду" вторая часть предложения будет синтаксическим эллипсисом (опущен глагол береги).
  6. Проблема временных противоречий. Например, в предложении "Я хотел завтра пойти в кино" глагол "хотел" в прошедшей форме сочетается с обстоятельством будущего времени "завтра", что противоречит общепринятой логике.

Закончим с перечислением проблем и поговорим об основных понятиях. В качестве языков для общения с программой могут быть: язык меню, язык приказов, анкетный язык. Это регламентированные языки, в них могут работать упрощенные схемы разбора, например, по ключевым словам, и эти языки мы не рассматриваем. В качестве естественного языка (ЕЯ) мы рассматриваем подмножество Ограниченного Естественного Языка (ОЕЯ) - это профессионально-ориентированное подмножество ЕЯ конечного пользователя. Для разбора ОЕЯ используются программные комплексы, называемые Лингвистическими Трансляторами (ЛТ). Возможная структурная схема ЛТ приведена на рис. 5.1.

Структурная схема ЛТ

Рис. 5.1. Структурная схема ЛТ

Определим или напомним основные понятия. Слово - одна из основных единиц языка, служащая для именования предметов, лиц, процессов, свойств и т.д. Предложение - любое высказывание, являющееся сообщением о чем-либо. Словосочетание - простейшая единица речи, которая образуется на основе подчинительной связи (согласования, управления, примыкания) двух и более слов. Словосочетание в отличие от предложения не является, как правило, сообщением. Дискурс - связный текст. Лексема - слово во всей совокупности его лексических значений. Морфема - минимальная законченная часть слова. Аффикс - прикрепленная к корню часть слова (подразделяется на префикс, суффикс, инфикс ). Омонимы - разные по значению, но одинаковые по написанию слова, морфемы и др. единицы языка ("рысь" - бег, "рысь" - животное). Синонимы - разные по написанию слова, но одинаковые по значению ("орать", "кричать" или "дорога", "путь"). Эллипсис - опущенные слова в предложении ("Я еду кататься, а ты?"). Анафора - повторение объектов предложения ("Город пышный, город бедный" - А.С.Пушкин).

< Лекция 4 || Лекция 5: 12345 || Лекция 6 >
Дмитрий Черепанов
Дмитрий Черепанов

Неоднократно находил ошибки в тестах, особенно в экзаменационных вопросах, когда правильно данный ответ на вопрос определялся в итоге как не правильно отвеченный... Из-за этого сильно страдает конечный бал! Да еще в заблуждение студентов вводит! Они-то думают, что это они виноваты!!! Но они тут не причем! Я много раз проверял ответы на некоторые такие "ошибочные" вопросы по нескольким источникам - результат везде одинаковый! Но ИНТУИТ выдавал ошибку... Как это понимать?

Из-за подобных недоразумений приходиться часами перерешивать экзамен на отличную оценку...!!!

Исправьте, пожалуйста, такие "ошибки"...

Анжелика Шлома
Анжелика Шлома

Огромная просьба сделать проще тесты, это просто ужас какой-то! Слишком сложно!