тест |
Формальные языки и грамматики
Математический язык как форма выражения научного знания использовался еще в древности при решении практических задач.
Большую роль в развитии математики как языка – метаязыка наук – сыграла математическая логика, аксиоматизировавшая ряд теории, изучившая их логику, внутреннюю структуру.
Развитие информатики, особенно таких ее разделов, как теория формальных языков, грамматик, структур, алгоритмических языков и методов трансляции баз данных и знаний и других приводит к развитию, углублению, формализации и структурированию предметов наук.
В свою очередь, появилась возможность моделирования языковых структур, формализации, структурирования ряда языков общения, анализа и построения различного рода текстов и словарей, в том числе – их автоматического построения.
Язык, определенный с помощью алфавита (над алфавитом) X = {x1, x2, ... , xn} , – это некоторая устная, звуковая, письменная или иная форма выражения слов над X, включая синтаксис – правила образования структур из слов и словосочетаний, семантику – правила проверки правильности, смысловой однозначности и совместимости синтаксических конструкций языка, состоящих из лексем. Для устных языков (общения) нужна и фонетика – правила произношения составных частей предложения, то есть фонем.
Язык как коммуникативный аппарат должен иметь определяющие конструкции слов над данным алфавитом, грамматические правила образования предложений из слов и соотнесения этих предложений тем явлениям и процессам, которые они описывают, или синтаксическим и семантическим правилам.
Пример. В частности, семантика изучает связи вида:
"знак, структура знаков значение объект";
синтаксис – связи вида:
"знак, структура знаков объект".
Основные функции любого языка – отображение, передача, сжатие, хранение, актуализация информации с помощью сообщений на этом языке.
Пример. Запишем более кратко, сжато, точно (формализованно) факт "целое число x делится на целое число y без остатка". На математическом языке это будет иметь вид "Число x кратно числу y ". Факт, что числа x, y – целые, уже можно специально, как выше, не оговаривать, так как математическое понятие кратности это уже предполагает (аксиома). Запишем еще более кратко и формализованно на алгоритмическом языке Паскаль: " x mod y = 0 ". Здесь уже условие кратности область изменения аргументов не нужно оговаривать – они декларированы в языке Паскаль (в описаниях типов и операции mod ).
Языки бывают естественного происхождения (например языки общения) и искусственного происхождения или формальные языки, разрабатываемые для общения человека с автоматом (компьютером) либо для описания и получения знаний.
Пусть X – некоторый алфавит, X = {x1, x2, ... , xn} , а S(X) – множество слов над алфавитом X, тогда S(X) – бесконечное и счетное множество.
Формальный язык L(X) – произвольное подмножество S(X).
Формальный язык использует естественный язык как лексическую форму оформления входящих в него абстрактных объектов, как метаязык или язык для описания синтаксиса другого языка. Описываемый метаязыком язык в этом случае называется объектным языком (по отношению к метаязыку ).
Формальная грамматика G состоит из совокупностей: T = {t1, t2, ... , tk} – множество терминальных символов языка или множество основных понятий языка ; N = {n1, n2, ..., nm} – множество нетерминальных символов языка или вспомогательных понятий, обозначений конкретных классов слов, например, глаголов или предлогов, причем во множестве N содержится n0 – начальный символ из N ; P = {p1, p2, ..., pq} – система подстановок (продукции) слов вида в слова или замен всех слов s1(x) в рассматриваемой системе соотношений на слова вида s2(x) .
Язык (множество слов S(X) ) задается грамматикой G(S) – структурой правил, которые позволяют порождать все слова и только их.
Грамматический анализ – процесс редукции к нетерминальному символу или слову.
Множество – словарь грамматики G. Правила вывода – это непустое множество правил вида , где , а " " – отношение вида "левое (можно) заменить на правое".
Слово выводимо из слова с помощью правила , если , . Последовательность называется выводом g из f, если fi+1 выводимо из fi для всех . Признаком завершения процесса (последовательности) вывода является отсутствие слова, выводимого из g.
Пример. Опишем элементы естественного, например, русского языка в терминах формальных грамматик. Алфавит языка X = {А, а, Б, б, ... , Я, я, ., ,, :, ;, ., !, ?, ", ", (, )}, T={<корни>, <приставки> и т.д.}, N = {предложение, подлежащее, сказуемое, глагол, местоимение и т.д.}, n0 = "предложение" . Например, пусть
Т = {арбуз, банан, красный, греет, загорает, бок},
N = {сказуемое, подлежащее, определение, дополнение, группа подлежащего, группа сказуемого},
n0 = {предложение} ,
P = {p1: предложение (группа подлежащего), (группа сказуемого ),
p2: группа подлежащего (определение)(подлежащее) ,
p3: группа сказуемого (сказуемое) (дополнение) ,
p5: подлежащее "арбуз" ,
p6: подлежащее "банан" ,
p7: сказуемое "греет" ,
Тогда справедливы следующие выводы:
предложение (группа подлежащего)(группа сказуемого)
(определение) (подлежащее) (группа сказуемого)
(определение) (подлежащее) (сказуемое) (дополнение)
"красный" (подлежащее) (сказуемое )(дополнение)
"красный арбуз" (сказуемое) (дополнение)
"красный арбуз греет" (дополнение)
"красный арбуз греет бок".
Таким образом, мы по формальным правилам построили предложение естественного языка.
Различают четыре основных типа формальных грамматик.
Грамматика типа 0 (G–0) – грамматика, в которой нет ограничений на правила вывода (то есть в правиле вывода , f и g – любые).
Грамматика типа 1 (G–1) – грамматика, в которой содержатся правила вида , где n – нетерминальный символ , f1 , f2 , w – цепочки из словаря W.
Грамматика типа 2 (G–2) – грамматика, в которой допустимы лишь правила вида .
Грамматика типа 3 (G–3) имеет правила вида , либо , где .
Грамматики типа G–0 называются свободными, типа G–1 – контекстно-зависимыми, типа G–2 – контекстно-свободными, типа G–3 – регулярными или автоматными.