Опубликован: 19.07.2010 | Доступ: свободный | Студентов: 1674 / 151 | Оценка: 4.07 / 3.43 | Длительность: 20:59:00
Лекция 11:

Синдикация и аггрегирование веб-контента. Улучшение usabilty веб-контента.

Аннотация: Обзор спецификаций и технологий, направленных на повышение доступности (видимости) актуальной и релевантной для конечных пользователей информации, а также улучшение usability при работе с этой информацией.

Пользователь может получать информацию с сайта без необходимости его посещения несколькими способами.

Во-первых, можно воспользоваться RSS -агрегатором, подписавшись на RSS-поток, который распространяется с сайта. Обычно таким образом распространяются новости и уведомления, обновления о изменении или загрузке файлов на сайте. Полученная информация "складируется" в базе данных RSS -агрегатором (если это не онлайн-сервис), а сам RSS не очень удобен для получения оперативных обновлений (например, когда в уже опубликованную новость вносятся дополнения или изменения).

Второй способ - использование специальных программ, отслеживающих изменения кода сайта (например для автоматизированного чтения форумов и групп новостей). Такие решения слабо распространены и недостаточно популярны.

Третий вариант предполагает почтовые рассылки в HTML -формате. Они популярны для составления пресс-релизов и различных маркетинговых материалов, однако оперативно получать данные таким способом невозможно (при этом создается высокая нагрузка на почтовые серверы, характерны задержки в прохождении почты). Кроме того, этот вариант является уязвимым для спама.

Начиная с IE8 появляется четвертый, более совершенный и современный инструмент, воплощающий в себе лучшее из первых двух способов - веб -фрагменты ( webslices ). Под веб-фрагментом понимается специальный веб-элемент, включенный в код страницы, позволяющий представлять контент в виде небольшого блока с динамическим содержанием.

Хотя RSS и веб-фрагменты основаны на Windows RSS Platform, между ними есть принципиальные различия:

  • Веб-фрагменты основываются на спецификации микроформата hAtom (основанного на формате Atom с исключением ряда элементов). В RSS используются RSS 2.0 и Atom.
  • Для организации RSS -потока вебмастер должен создать специальный XML -файл, в который будет записываться транслируемая информация, который будет загружаться в RSS -агрегатор. В случае с веб-фрагментами дополнительных файлов не требуется - данные собираются непосредственно со страницы сайта.
  • При подписке на RSS -канал пользователю потребуется открывать сам поток в браузере или в программе для чтения каналов, после чего держать запущенной вкладку с потоком (если чтение идет в IE8 ). В случае с веб-фрагментов доступ к ним (после того, как пользователь подпишется на веб-фрагмент) осуществляется через панель браузера "Избранное". С помощью таких фрагментов можно проверять новую почту, получать новости, прогноз погоды и другую оперативную информацию без необходимости открывать лишние окна.
  • При передаче информации в виде RSS имеется возможность создания ленты публикаций, когда пользователь может увидеть и просмотреть не только самую последнюю информацию, но и то, что было опубликовано ранее. На веб-фрагменте страницы сайта всегда в наличии только самая последняя информация. Поэтому в любой момент времени для просмотра доступны только последние данные. История публикаций не поддерживается.

Таким образом, если пользователя интересует история событий, то лучше пользоваться RSS -каналами, если только текущая информация - веб-фрагментами.

Веб-синдикация на основе RSS

Веб-синдикация - форма синдикации при которой содержимое веб-сайта предоставляется другим многочисленным веб-сайтам. Иначе говоря, веб-синдикация означает создание доступных с сайта веб-потоков ( feed ), предоставляющих всем пользователям в форме краткой сводки информацию о новом содержимом, появившемся на сайте (это могут быть новости, сообщения из форума и др.).

Веб-поток - формат данных, используемый для предоставления пользователям часто обновляемого контента. Распространители контента объединяют (синдицируют) веб-потоки, давая пользователям возможность подписаться на них. Другое название для веб-потока - синдицированный поток. Создание набора веб-потоков, которые доступны одновременно в одном месте называется агрегированием. Для этого используются специальные агрегаторы.

Агрегатор потоков ( feed aggregator ) - клиентское веб-приложение, собирающее синдицированный веб-контент такой как новостные заголовки, блоги, подкасты и другие в одном месте для более удобного просмотра.

Для принимающего сайта веб-синдикация является эффективным способом размещения более исчерпывающей и своевременной информации на своих страницах.

Для сайта передающего синдицируемую информацию выгода заключается в большей степени его представленности среди различных он-лайн платформ. Кроме того, порождается дополнительный трафик, что, по-сути, является простой и бесплатной формой рекламы сайта в сети веб.

Взаимодействие веб-потоков и агрегаторов происходит в следующем порядке:

  • Провайдер контента публикует ссылку на поток со своего сайта.
  • Пользователь может зарегистрировать эту ссылку с помощью программы-агрегатора на своем компьютере.
  • Программа-агрегатор затем опрашивает все серверы, входящие в список зарегистированных потоков, с целью получения нового контента.
  • При наличии нового контента программа-агрегатор либо информирует пользователя о наличии такового либо сразу же загружает его.

Контент веб-потока обычно представляет собой веб-страницы, гиперссылки либо мультимедиа. Извлечение контента с сайта в форме веб-потока обычно производится средствами самого веб-сайта. Однако, не все веб-сайты могут иметь веб-поток. В этом случае могут быть использованы средства сторонних агентов. Веб-поток - это веб-документ, обычно в XML формате, содержащий тематические элементы, содержащие ссылки на более полную версию материала. Является удобным инструментом для доставки структурированной информации. Пользователи могут подписываться на веб-потоки с помощью агрегаторов или программ для чтения потоков, которые комбинируют содержимое нескольких веб-потоков для отображения на одной странице (или нескольких последовательных страницах).

Некоторые из веб-браузеров содержат встроенные возможности для аггрегирования потоков. Это делается путем простого ввода URL веб-потока или кликом на гиперссылке в браузере. Формат веб-потоков не предназначен для непосредственного чтения пользователем, поскольку позволяет автоматически переносить контент с сайт на сайт. Для представления информации из веб-потока обычно используются 2 формата: RSS и Atom.

Если сравнивать веб-поток с более традиционной почтовой технологией доставки часто обновляемой информации, то можно указать на следующие преимущества первого:

  • Поскольку при подписке пользователь не указывает свой адрес электронной почты, эта технология лишена таких потенциальных угроз как спам, вирусы, фишинг и кража личной информации.
  • При отказе от использования веб-потока нет необходимости отправлять запрос на отказ от подписки; пользователь просто исключает данный поток из своего агрегатора. " Имеются широкие возможности для автоматической сортировки сообщений от веб-потоков вплоть до использования сложных правил и регулярных выражений.
  • Браузеры Internet Explorer 7+, Opera, Safari, Firefox и другие могут работать с веб-потоками через инструменты панели Закладок, Избранного и других. Имеются также специализированные программы для чтения веб-потоков, например FeedDemon, Thunderbird, Outlook 2007 и другие.

Агрегатор позволяет объединить информацию из разных потоков в одном окне веб-браузера или веб-приложения. Такое приложение называется RSS - каналом, новостной лентой, агрегатором потоков или поисковым агрегатором. Подкастинг-агрегаторы могут автоматически загружать медиа-файлы. Объединенный контент агрегатор получает и интерпретирует обычно в формате RSS или других форматах, основанных на XML, например RDF/XML или Atom. Наиболее развитые методы аггрегирования веб-потоков реализуются на основе технологий AJAX и XML компонентов - веб-виджетов ( web widgets ).

Многие языки программирования имеют библиотеки функций, позволяющие загружать, обрабатывать, генерировать и выполнять удаленную загрузку каналов. Например в Perl имеется поддержка нескольких библиотек в пространстве имен XML::RSS

RSS

RSS - семейство XML -форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п.

В разных версиях аббревиатура RSS имела разные расшифровки:

  • Rich Site Summary (RSS 0.9x) ;
  • RDF Site Summary (RSS 0.9 и 1.0) ;
  • Really Simple Syndication (RSS 2.x) .
Из истории формата.

Первой открытой официальной версией RSS стала версия 0.90. Формат был основан на RDF (Resource Description Framework - стандарт схемы описания потоков) и многим показался слишком сложным, после чего появилась упрощенная версия - 0.91.

В 2000 году произошло разделение формата:

  • Группа разработчиков из списка рассылки " RSS-DEV " предложила формат RSS 1.0, который был основан на стандартах XML и RDF организации W3C. Расширения формата предлагалось делать через модули расширений, описываемые в своих пространствах имен. Так как проект использует уже существующие стандарты, рассматривается его использование в рамках технологии Semantic Web.
  • Спецификация RSS 0.92 является развитием версии 0.91 и ориентируется на тех пользователей, которым RDF -описание показалось излишне сложным. Дальнейшим развитием этой ветки стал формат RSS 2.0, который тоже поддерживает расширения с помощью модулей, лежащих в своих пространствах имен.
  • В июне 2006 года появился конкурент RSS - формат Atom.

Из-за существования нескольких различных версий формата RSS - каналов программы-агрегаторы должны уметь работать со всеми вариантами, что создает определенные трудности их разработчикам. Проблемы совместимости возникают также при вставке в RSS -описания небольших HTML - фрагментов, которые в одних случаях оформляются как CDATA узлы, а в других - как HTML -кодированные PCDATA узлы. Существуют проблемы с различными форматами представления дат и метаданных.