Беларусь |
Языки разметки. Введение в XML
Введение в XML
Как появился XML
Разработка XML началась в 1996 году. Консорциум World Wide Web ( W3C ) выделил средства группе экспертов по языку SGML, возглавляемой Джоном Боузэком (Jon Bosak) из компании Sun Microsystems, для создания подмножества языка SGML, которое могло бы быть принято Web-сообществом. В результате работы несущественные возможности SGML были удалены, в результате чего язык, разработанный таким образом, оказался значительно более доступным, чем оригинал. В 1998 году консорциум выпустил спецификацию XML версии 1.0. Она постоянно совершенствуется, последний вариант спецификации всегда находится по адресу http://www.w3c.org/TR/rec-xml.
Необходимо отметить, что язык XML был разработан таким образом, что любой действительный документ XML является действительным документом SGML.
Что такое XML
Свое название расширяемый язык разметки XML (Extensible Markup Language) получил по той причине, что в нем нет фиксированного формата, как в HTML. В то время как язык HTML ограничивается набором твердо закрепленных тегов, пользователи XML могут создавать свои собственные тэги, которые бы отвечали тематике документа. Таким образом, XML - это метаязык. Этот язык используется в качестве средства для описания грамматики других языков и контроля за правильностью составления документов.
Документ XML выглядит во многом похожим на HTML. В XML существуют открывающие, закрывающие и пустые тэги. Однако, в отличие от HTML, правила относительно тегов более строгие, например, смысл тега зависит от регистра, а каждый открывающий тег должен во всех случаях иметь парный закрывающий тег. Теги в документе могут быть вложены друг в друга. Теги начала и конца элемента являются основными используемыми в XML разметками, но ими дело не исчерпывается. Так же как и в HTML тэги могут иметь атрибуты, причем количество атрибутов зависит от фантазии автора. Документы XML могут содержать ссылки на другие объекты. Ссылки представляют собой строку, начинающуюся с амперсанта и заканчивающуюся точкой с запятой. Ссылки позволяют, в частности, вставить в документ специальные символы, включение которых самих по себе могло бы сбить с толку программу разбора. К тому же ссылки могут ссылаться на определенные автором разделы текста в том же самом или в другом документе. Для того чтобы используемые вами в документе теги понимали и другие необходимо составить определения типов документов (Document Type Definition, DTD). Хранимые в начале файла XML или внешним образом в виде файла, эти определения описывают информационную структуру документа. DTD перечисляют возможные имена элементов, определяют имеющиеся атрибуты для каждого типа элементов и описывают иерархию элементов. Сам XML документ не несет информацию о том как находящиеся в нем данные должны отображаться на экране, за это отвечает таблица стилей. Таким образом, в документе имеется разграничение между оформлением и содержанием.
Подводя итоги можно сказать, что основными достоинствами XML являются:
- возможность создания собственных тэгов, относящихся к содержанию документа;
- XML несет информацию только о структуре и смысле документа, оставляя форматирование элементов таблице стилей;
- способность объединять несколько ХМL - документов в один большой документ.
Язык XML в качестве данных
Разметка ХМL отражает содержание документа, его можно использовать как универсальный формат в любых приложениях. Таким образом, XML-файл может быть не только воспроизведен на браузере, но, поскольку XML интегрирован в ряд других приложений, с его помощью можно предоставить пользователю данные для их дальнейшей обработки. XML, как язык разметки документов, приобретает все большую популярность в качестве формата хранения различных материалов. Однако XML не всегда удобен для хранения больших групп записей, так как кроме всего прочего необходимо хранить и описание тегов. В данном случае обычно используют традиционную базу данных, а по мере необходимости преобразовывать ее содержимое в XML.
Взаимодействие с машиной
Поскольку XML-файлы несут информацию о своем содержании, машинные пользовательские агенты способны обрабатывать информацию, помещенную в файл. Это означает, что в частном случае применения поисковых машин они обеспечивают значительно более точные результаты по запросам. В то время как HTML стал форматом представления, XML действует в качестве общепринятого синтаксиса, позволяя значительно большему числу машинных пользовательских агентов использовать хранимые в XML файлах данные для различных целей.