8 января 2009 года, четверг

Погружаемся в формат RSS

В прошлый раз мы коснулись вопроса относительно импорта и экспорта информации посредством формата RSS, смело, заявив о том, что в головах контент-менеджеров должен произойти переворот, и надо сказать есть сдвиги.

Сегодня же, хотелось бы немного погрузиться в тему (в тему, не в матрицу) и рассказать более детально о RSS. Пройтись по истории, посмотреть на техническую сторону. Поэтому давайте приступим.

1. Что такое RSS:

RSS — это сокращение от Really Simple Syndication, что для нас русскоговорящих значит не что иное как — Действительно Легкое Объединение или что бы было понятнее по смыслу — Очень Легкое Приобретение (в скобках — информации). Еще RSS — это разновидность XML, формат, помогающий легко и быстро обмениваться контентом.

Отметим, что RSS довольно быстро набирает обороты, и это понятно — он прост и эффективен. В пример можно привести Яндекс.Новости. Видели что это такое? Большое объединение новостей с множества сайтов, разбитое по категориям. Сегодня Рунет отстает от запада по темпам использования RSS, однако уже сегодня достаточно сайтов, которые экспортируют заголовки своих новостей, Байнет идет еще на шаг позже, наверное, не ошибусь, если скажу что у нас нет и 100 сайтов использующих силу и мощь этого формата. И с эти надо что-то делать.

2. Немного истории:

Формату RSS предшествовал RDF (Resource Description Framework или по-русски схема/структура описания источников/ресурсов), который решал задачу обмена информацией о сайте, облегчая индексацию. Но RDF не стал популярен, одна из причин — он не давал самого контента, а лишь информацию о нем. Поэтому на основе XML и RDF был создан формат RSS, который теперь приносит радость миллионам пользователей.

Сегодня есть три различные версии формата RSS. Первый формат 0.90 был разработан компанией Netscape для своего портала Netcenter, его версия 0.91 стала, как это не странно, еще более простой, однако сейчас она никак не развивается Netscape, а его развитие передано компании UserLand Software. В тоже время, еще одна компания прониклась принципами RSS, созданного Netscape, и создала свою версию формата, окрестив его номером 1.0.

В настоящее время большинство используют RSS версии 2.0, который развился из формата 0.90, когда-то созданного Netscape. Сегодня мы будем говорить именно о RSS 2.0.

3. RSS изнутри:

Для начала давайте взглянем на голый код:

<? xml version="1.0" encoding="windows-1251" ?> 
 <rss version="2.0">
    <channel>
      <language>ru</language>
      <title>Информационные технологии в Беларуси</title> 
      <link>http://www.it-belarus.net</link> 
      <description>IT-Belarus.NET - информационно-аналитический проект 
      рассказывающий об информационных технологиях в Беларуси. 
      На страницах которого: новости, пресс-релизы, презентации компаний,
       публикации.</description> 
      <image>
          <url>http://www.it-belarus.net/i/logo.gif</url> 
          <link>http://www.it-belarus.net</link> 
          <title>Информационные технологии в Беларуси</title> 
      </image>
      <lastBuildDate>Mon, 20 Mar 2004 00:00:00 +0300</lastBuildDate> 

      <item>
          <title>IT-Belarus.NET начал экспорт новостей в формате RSS</title> 
          <link>http://www.it-belarus.net/news/read.php,2004,05,1</link> 
          <description>Довольные пользователи - залог успеха проекта. 
          Надеемся, экспорт новостей  облегчит вашу жизнь.</description> 
          <pubDate>Mon, 20 Mar 2004 00:10:00 +0300</pubDate> 
      </item>
      . . .
    </channel>
 </rss>

А теперь подробнее. С остановками на объяснения.

Начинается файл с объявления используемого языка — XML и спецификации — 1.0, там же оговариваем кодировку выдаваемого текста. Все просто, как и в HTML.

Далее, объявляем формат и версию, у нас это rss версия которого 2.0. Можно сказать, что связка <rss version="2.0"><channel> — </channel></rss>, то же самое что и <html> — </html>.

Файл RSS, как файл HTML состоит из двух основных частей — служебной информации и самого содержимого. Разве что в HTML служебная информация помещена в контейнер <head> — </head>, а в RSS она идет следом за <channel>. Основная часть в языке HTML размещается в <body> — </body> и она одна единственная. В RSS контейнеров с содержимым бываем много, чтобы им не было скучно, а выглядят они так: <item> — </item>.

Что же мы имеем в служебной информации?

  • language — язык;
  • title — заголовок, как и положено. Советую хорошо продумать этот элемент, он должен быть максимально лаконичным и информационным;
  • link — ссылка на главную страницу сайта;
  • description — описание, аналог мета тега, фактически расширенный вариант title, не думаю что тут стоит заботится о ключевых словах, позаботьтесь лучше о информировании пользователя;
  • image — логотип, ваше визуальная особенность. Этот элемент можно опустить, однако он скрасит вашу ленту, подобно как ICO в адресной стоке. image — имеет дочерние контейнеры, url — ссылку на графический файл, link — ссылку на сайт или страницу, title — описание картинки, аналог тега alt. Так же можно указать высоту, ширину, дополнительное описание, но нами это опущено;
  • LastBuildDate — время изменения нашего канала в целом, т.е. дата редактирования файла ленты RSS.

В служебной информации можно передать еще много всего разного, порой интересно и полезно, это только порой, в большинстве случаев остальные контейнеры вам не понадобятся, а если и понадобятся, то не сразу. Их изучение оставим на саму совесть.

Рассмотрев служебный блок, перейдет к содержанию. Думаю, вы часто встречали такие понятия как RSS лента или RSS feeds, и это, потому что в RSS как несколько боков содержимого. Ведь основное применение — это экспорт / импорт новостей. Проще говоря в файле находятся более одного контейнера <item> — </item>, а в нем:

  • title — заголовок, будь то новости, объявления, статьи, или еще чего;
  • link — ссылка на полный текст, отметим что адрес желательно должен быть постоянным;
  • description — сам текст, это может быть анонс или полный вариант;
  • pubDate — дата создания документа, советую указывать правильную дату, т.к. некоторые агрегаты, считывающие ваш файл не отдадут пользователю блок, если дата в будущем, и как существа разумные будут ждать указанной даты.

Это основное. Часто в тексте указывают графику, как это делается, мы уже писали, смотри несколькими абзацами выше.

Ну и если вам этого будет мало, и вы захотите автора, категорию, где можно оставить комментарии и т.д., то вам придется обратиться к спецификации, благо она не большая.

4. В завершении:

Безусловно, в рамках этой статьи мы всего лишь бегло прошлись по основным моментам. Если вы прониклись идеей, то без труда сможете удовлетворить свое любопытство и расширить знания. Однако надеюсь, что в общих чертах формат стал понятен. Если нет, перечитайте материал еще раз, если этого будет мало... тогда да поможет вам великий Яндекс.

30 августа 2004 г. Источник: Сергей Владимирович

Ваш комментарий:

Имя:
E-mail:
Комментарий:
Проверка
Все поля обязательны для заполнения.

Статьи автора


Последние статьи

© 2004—2009 «ИТ в Беларуси»

Электронная почта:
Active Technologies: хостинг в Беларуси

Продвижение сайта: Seomodern
Дизайн сайта: Студия Дмитрия Борового

Программирование: DrakonSoft