Микроформаты и микроданные
Старая идея «семантической паутины», которую так и не смог продвинуть консорциум
W3C, в последнее время снова набирает обороты. В России «Яндекс» достаточно
активно настаивает на внедрении микроформатов, а за рубежом совсем недавно
образовался неожиданный союз: Google, Bing и Yahoo! (точнее, Google, Inc.,
Yahoo, Inc. и Microsoft Corporation) создали совместный проект schema.org. С его
помощью они собираются привить вебмастерам привычку размечать страницы тегами
Microdata (пока черновой стандарт HTML5). Надо отметить, что этот формат
разработан без консультаций с W3C, а так как вебмастерам гораздо интереснее
«радовать» Google и остальные поисковики, нежели некий туманный для многих
консорциум, именно Microdata станет базовым в зарубежном интернете. В России,
кстати, пока что «Яндекс» не поддержал инициативу schema.org, поэтому по Рунету
распространяется другой формат семантической разметки: µF. Очевидно, что для успешного взаимодействия со всеми поисковиками придется дублировать семантические описания страниц. Хотя Google поддерживает микроформат hProduct, он явно будет предпочитать собственный язык.
Пара слов о Semantic Web
Веб-страница может быть простым документом без специальной разметки для поисковика. В этом случае ему приходится анализировать документ своими методами, извлекая и структурируя информацию. Какими бы совершенными ни были алгоритмы ПС, неизбежны ошибки — особенно если нужен не просто поиск по ключевым словам, а установление смысла и отношений между смыслами. Семантическая разметка страниц позволит машинному разуму извлечь данные, пригодные для прямого помещения в базу данных и для любой обработки. Семантическая паутина дает возможность поисковику предоставлять прямые и сразу сформулированные на человеческом языке ответы на вопросы пользователей. Например, на запрос «рецепт борща» поисковик сразу выдаст ответ с ингредиентами и их количеством, а на «сколько гигабайт памяти в ноутбуке Asus K73e» — цифру 4. Но поисковик не будет рисковать обмануть пользователя — такие ответы нельзя строить на основе анализа страниц! Ответы должны быть на сто процентов верными: нельзя перепутать
оперативную память и объем жесткого диска, это очень сильно уменьшит лояльность пользователя к поисковой системе. Задачу правильного понимания контента машиной решает разметка специальными тегами.
Ниже мы разберем примеры описания продукта в двух главных форматах нынешнего поколения. Это только пример, здесь приведены не все возможные параметры и «типы полей».
Google — microdata (schema.org)
<div itemscope itemtype="http://schema.org/Product">
<span itemprop="name">Микроволновая печь Samsung MW73VR</span>
<img src="samsung-microwave-mw73vr.jpg" alt='Микроволновая печь Samsung MW73VR' />
<div itemprop="aggregateRating" itemscope itemprop="http://schema.org/AggregateRating">
Средняя оценка покупателей <span itemprop="ratingValue">4</span>
на основе <span itemprop="reviewCount">11</span>отзывов</div>
<div itemprop="offers" itemscope itemtype="http://schema.org/Offer">
<span itemprop="price">2630 р.</span>
<link itemprop="availability" href="http://schema.org/InStock" />В наличии
</div>
<span itemprop="description">Отдельностоящая микроволновая печь объемом 20 л и мощностью 800 Вт</span>
<div itemprop="reviews" itemscope itemtype="http://schema.org/Review">
<span itemprop="name">Отличная печка</span> - от <span itemprop="author">Иван</span>,
<meta itemprop="publishDate" content="2011-04-01">1 апреля 2011
<div itemprop="reviewRating" itemscope itemtype="http://schema.org/Rating">
<meta itemprop="worstRating" content = "1">
<span itemprop="ratingValue">4</span>/
<span itemprop="bestRating">5</span>stars
</div>
<span itemprop="description">Легко чистить</span>
</div>
</div>
«Яндекс» — microformats (hProduct)
<div class="hproduct">
<span class="category"><span class="value-title" title="auto"></span></span>
<h2>
<span class="brand">Ford</span>
<span class="fn">Focus</span>
</h2>
<a class="photo" href="http://example.com/img/ford/focus-st.jpg"><img class="" alt="Ford Focus, хэтчбек 5 дв ST" src="http://example.com/img/ford/focus-st-preview.jpg" align="left"></a>
<span class="identifier">
<span class="type">
<span class="value-title" title="body-type"></span>
</span>
<span class="value">хэтчбек 5 дв</span>
</span>
<span class="identifier">
<span class="type">
<span class="value-title" title="configuration-name"></span>
</span>
<span class="value">ST</span>
</span>
<span class="identifier">
<span class="type">
<span class="value-title" title="displacement"></span>
</span>
2.5
</span>
<span class="identifier">
<span class="type">
<span class="value-title" title="transmission"></span>
</span>
MT
</span>
<span class="identifier">
(<span class="value">225</span>
<span class="type">
<span class="value-title" title="horse-power"></span>
л. с.
</span>)
</span>
<span class="identifier">
<span class="value">2009</span>
<span class="type">
<span class="value-title" title="prodyear"></span>
года выпуска
</span>
</span>
<span class="identifier">
(<span class="value">передний</span>
<span class="type">
<span class="value-title" title="gear-type"></span>
привод
</span>,
</span>
<span class="identifier">
<span class="value">левый</span>
<span class="type">
<span class="value-title" title="steering-wheel"></span>
руль
</span>).
</span>
<a class="url" href="http://example.com/ford/focus-st-2.5-mt.html">
Подробнее про эту конфигурацию</a>
<span class="identifier">
<span class="type">
<span class="value-title" title="dtpurchased"></span>
Приобретен
</span>
<abbr class="value" title="2010-09-15">15 сентября 2010</abbr>
</span>
<span class="identifier">
<span class="type">
<span class="value-title" title="run"></span>
с пробегом
</span>
15
</span>
<span class="identifier">
<span class="type">
<span class="value-title" title="run-metric"></span>
</span>
тыс. км
</span>.
</div>
Валидация
Инструментарий для проверки кода предоставляет «Яндекс.Вебмастер».
CMS с поддержкой микроформатов
Внедрить семантическую разметку вручную можно на небольшом сайте — или на небольшом количестве страниц (например, на странице с контактной информацией). Вручную же писать код для тысяч товаров интернет-магазина абсолютно нереально. Поэтому необходимо пользоваться системами управления контентом, уже поддерживающими микроформаты — например, Drupal, Wordpress, Movable Type. Или же писать модуль с таким функционалом для используемой CMS.
Выводы
Помните, что семантической разметкой можно пользоваться только для представления в удобной поисковикам форме реального, существующего, видимого посетителям страницы контента. Все остальное (например, попытки разметки скрытых элементов) будет распознано, классифицировано как поисковый спам и пресечено жесткими пессимизационными санкциями. Разметка такого типа — это шаг в будущее, ее рекомендуется использовать везде, где только это возможно и целесообразно. Пока что — оба формата, но вполне возможно, что под давлением инициативы schema.org «Яндекс» тоже начнет поддерживать Microdata, что устранит необходимость дублирования разметки.
|
Мэтт Каттс о HTTPS и ранжировании
Мэтт Каттс в своем новом видео развеял миф о негативном влиянии протокола HTTPS на ранжирование сайтов. Уже не раз оптимизаторы опасались, что снизить позиции в поисковой выдаче может «тормознутость» данного протокола. Так как HTTPS использует шифрование данных, скорость передачи данных по этому протоколу ниже, а это в свою очередь может негативно повлиять на ранжирование сайта, так как алгоритмы Google учитывают этот фактор. Мэтт Каттс заявил, что использование этого протокола для сайтов вполне оправдано, и поставил в пример PayPal, который использует HTTPS. Шифрование данных снижает скорость передачи данных, но не настолько сильно, чтобы повлиять на позицию сайта в поисковой выдаче. В свою очередь команда разработчиков делает все для того, чтобы защищенный протокол HTTPS не влиял на положение сайта в рейтинге. Только чрезмерно медленная загрузка может стать причиной снижения
положения в SERP, но это частный случай, вероятность которого крайне мала. Причиной в подавляющем большинстве случаев является не HTTPS, а другие факторы.
AdSense: работа над ошибками
Google AdSense разместил статью о том, как правильно настраивать файл robots.txt. Этот материал положил начало серии публикаций, которую специалисты компании назвали «Ошибки сканирования AdSense». По словам разработчиков, причинами для запуска этого цикла статей стали частые ошибки пользователей из-за отсутствия базовых знаний. По причине неправильной настройки или отсутствия файла robots.txt возникают ошибки сканирования. Робот AdSense иногда просто не может попасть на сайт.
Google отчитывается о нововведениях
04.03.2012
Улучшенные результаты по похожим запросам
Уже давно известно, что Google подставляет в выдачу некоторое количество результатов, которые близки, но не на 100% релевантны именно изначальному запросу. Теперь вероятность высокого ранжирования таких результатов существенно понижена. Иногда эти близкие результаты только мешали пользователю.
Более обширная индексация
Сущность этого нововведения состоит в увеличении значения long-tail запросов. Теперь они чаще будут появляться в результатах поисковой выдачи.
Новый классификатор «паркованных» доменов
Начинает работу новый алгоритм, направленный на поиск запаркованных доменов. В большинстве случаев поисковик исключает из выдачи такие ресурсы.
Насколько умны поисковые роботы?
Мэтт Каттс во время конференции Pubcon объявил, что Googlebot может работать с AJAX-страницами – например, индексировать комментарии на Facebook. Так совпало, что это заявление было сделано всего через несколько часов после того, как я обнародовал исследование Джошуа Гиардино, в котором высказано предположение, что Googlebot – это headless browser (браузер без графического пользовательского интерфейса), сделанный на основе кода Chromium. И теперь я собираюсь оспорить заявление Мэтта Каттса. Googlebot не только что поумнел, он уже некоторое время не является текстовым пауком; как не являются им ни BingBot, ни Slurp. Все свидетельствует о том, что поисковые роботы (Search Robots) – это headless browsers, и у поисковиков такая функция появилась еще в 2004 году.
Оговорка: Я не работаю ни на какой поисковик. Все сказанное здесь – теоретические умозаключения, основанные на патентных исследованиях (моих и Джошуа Гиардино), а также на некоторых указаниях Билла Славски и анализе поисковой выдачи.
Что такое headless browser?
Headless browser («безголовый браузер») – это полноценный веб-браузер без визуального интерфейса. Как и все TSR-программы (резидентные программы), он запускается без какого-либо оповещения на экране компьютера, но с ним могут взаимодействовать другие программы. Headless browser можно управлять с помощью командной строки или скриптового языка: можно загрузить страницу и алгоритмически исследовать данные, которые увидит пользователь Firefox, Chrome или (тьфу!) Internet Explorer. Ванесса Фокс намекает, что Google именно таким образом просматривал AJAX уже в январе 2010 года. Однако поисковикам удалось бы убедить нас в том, что их пауки все еще походят на браузер Lynx и могут только видеть и понимать текст и его метки. В целом, они приучили нас верить, что Googlebot, Slurp и Bingbot не похожи на Пэкмена. Нам внушают, что они обрабатывают информацию, не понимая, откуда она и что означает. Представьте, что пунктирная линия, которую «проглатывает» Пэкмен – это веб-страницы. Время от времени он натыкается на стену и меняет направление. Представьте, что SEO – это такие таблетки силы. Представьте, что «призраки» (та синяя штука на картинке) – это технические проблемы SEO, о которые Пэкмен споткнется, и которые не позволят ему добраться до вашей страницы. SEO помогает пауку поисковых машин «съесть» этот призрак; а если сайт не оптимизирован, то Пэкмен умирает и возрождается на другом сайте. Именно этот принцип нам предлагают уже много лет. Единственная проблема – это уже не так. Но будем справедливы: Google обычно не врет, а недоговаривает, поэтому это наша вина, что мы так долго не могли всего этого понять.
Советую вам прочитать исследование Джоша целиком, а здесь приведу некоторые основные моменты:
- Патент, зарегистрированный в 2004 году под названием «Деление документа на основании визуальных пробелов», содержит обсуждение методов, которые Google использует для визуального отображения страниц и создания моделей DOM (объектных моделей документов), чтобы лучше понимать контент и структуру страницы. Ключевая цитата из этого патента гласит: «Также могут использоваться и другие методы создания соответствующих значений веса – например, на основе изучения поведения или исходного кода программ или при помощи размеченной вручную группы веб-страниц для автоматической установки мер веса через процесс обучения машины».
- Хитрый мистер Каттс на конференции Pubcon намекнул, что GoogleBot скоро будет учитывать, что происходит в той части страницы, которая видна без прокрутки, в качестве показателя качества восприятия пользователем, представив это как новую функцию. Это любопытно, так как согласно патенту от 17 июня 2004 года под названием «Ранжирование документов на основе характеристик и/или поведения пользователей», эта функция существует уже семь лет. В ключевой цитате этого патента описываются «примеры характеристик, связанных со ссылкой, могут включать размер шрифта анкора, относящегося к ссылке; расположение ссылки (измеряемое, например, в списке HTML, в бегущей строке, выше или ниже первого экрана содержимого страницы, просмотренной в браузере с разрешением 800 на 600 пикселей, стороне (верхней, нижней, левой, правой) документа в нижнем колонтитуле, боковой колонке и т.д.); есть ли ссылка в списке, расположение ссылки в списке; цвет шрифта и/или атрибуты ссылки (например, курсив, полутона,
совпадающий с фоном цвет и т.п.)». Это свидетельствует о том, что Google уже какое-то время учитывает границы экрана. Я бы также сказал, что эта функция действует прямо сейчас, так как существуют моментальные превью, на которых страницы обрезаны там, где Google видит начало полосы прокрутки.
- Не секрет, что Google уже некоторое время в известной степени использует JavaScript, но «Поиск по контенту, доступному через веб-формы» указывает на то, что Google использует headless browser, чтобы производить действия, имитирующие работу пользователя. «Многие сайты часто используют JavaScript для преобразования строки вызова метода перед отправкой данных в форму. Это делается для того, чтобы предотвратить загрузки пауком. Эти веб-формы невозможно легко активизировать автоматически. В разных вариантах для обхода используется эмуляция JavaScript. В одном из вариантов реализации запускается простой клиент браузера, который работает с JavaScript». Хм-м-м, интересно.
Google также принадлежит значительное число патентов IBM, и это при всех их замечательных исследованиях удаленных систем, параллельной обработки данных и безинтерфейсных систем – например, патент под названием «Одновременная сетевая конфигурация множества систем без интерфейса». Хотя Google и сам несомненно проводил широкие исследования в этих областях.
Не стоит забывать и о патенте, принадлежащем Microsoft, который называется «Эффективное определение режима работы скрипта путем регулирования браузера», который не оставляет возможностей для разночтений, так как там во многих местах говорится, что Bingbot – это браузер. «Метод анализа одного или нескольких скриптов, содержащихся в документе, для определения, выполняют ли эти скрипты одну или несколько заданных функций; этот метод включает в себя следующие шаги: идентификация путем выбора из одного или нескольких скриптов тех, что соответствуют одной или нескольким заранее заданным функциям; расшифровка одного или нескольких соответствующих скриптов; перехват сигнала внешней функции от одного или нескольких соответствующих скриптов во время расшифровки одного или нескольких соответствующих скриптов, сигнал внешней функции направляется на объектную модель документа, обеспечивая характерную реакцию, вне зависимости от объектной модели документа, на сигнал внешней функции; запрос
браузера на создание объектной модели документа, если характерная реакция не обеспечила дальнейшую работу соответствующих скриптов; обеспечение специальной реакции, получаемой с учетом созданной объектной модели документа, на сигнал внешней функции, если браузер получил запрос на создание объектной модели документа». Действительно, любопытно.
Более того, в феврале 2005 года Yahoo зарегистрировал патент, озаглавленный «Методы просмотра динамического веб-контента», в котором написано: «Архитектура программной системы может быть разной. На рис. 1 показан пример архитектуры, в которой модули объединены с традиционным поисковым роботом и движком браузера, который здесь действует как обычный веб-браузер без пользовательского интерфейса (иначе говоря, “headless browser”). Леди и джентльмены, мне кажется, это неоспоримое доказательство. Дальше в этом патенте говорится о автоматическом и ручном заполнении форм и методах применения JavaScript. Поисковые роботы на самом деле напоминают Пэкмена, но не тот рот без лица, в который мои родители играли в барах и игровых автоматах в середине 80-х. Googlebot и Bingbot больше похожи на трехмерного Пэкмена с глазами, носом и конечностями, на которого мы не обращаем внимания на консольных системах с 90-х годов. Этот Пэкмен может драться, пинаться, прыгать и молниеносно передвигаться по сети в четырех измерениях (4-е – это время, см. обновления). Иначе говоря, поисковые пауки могут обрабатывать информацию со страницы так же, как мы видим ее в своих браузерах, и они достигли такого высокого уровня способностей, что могут имитировать пользователя.
Вы когда-нибудь читали ЛСКП (лицензионное соглашение для конечного пользователя) для Chrome? Да, я тоже не читал, но, как и в большинстве продуктов Google, вас просят согласиться на применение программы, в которой ваши данные об использовании отправляются Google. Предполагаю, что эти данные используются не только для информирования алгоритма ранжирования, но и как средство обучения алгоритмов Googlebot – чтобы научить его заполнять определенные поля и формы. Например, Google может использовать данные, вводимые пользователем, для определения, какие данные вводятся в какое поле, а затем программным путем заполнить формы сгенерированной информацией такого же типа. Если 500 пользователей введут свой возраст в поле «Возраст», у робота будут данные о том, что в это поле надо вводить возраст. Поэтому Пэкмен больше не натыкается на двери и стены: у него есть ключи, и он может войти через парадную дверь. Новшества в Google AdWords
Система наконец-то отменила плату за активацию аккаунта (платить 200 рублей только за доступ к сервису — это наследие прошлого века), причем нововведение затрагивает и подарочные купоны на оплату рекламы. Второе значимое нововведение в крупнейшей в мире системе контекстной рекламы — относительный CTR, с помощью которого легко понять, насколько объявление привлекательно для посетителей конкретного сайта сети AdSense (если CTR намного меньше, чем у других объявлений, то либо текст совсем плох, либо аудитория площадки не заинтересована в рекламируемом предложении). Третья новинка — процент показов, с помощью которого можно уяснить, какая доля от возможного максимума показов закрывается с помощью текущего бюджета. Четвертое нововведение — диагностика мест размещения, применяется для анализа параметров площадок, где показывается реклама. Пятый и весьма полезный «бонус» — фильтр непросмотренных объявлений, который подключается к объявлениям с оплатой за показы и предотвращает списы
вание
денег, если пользователь открыл страницу, но не просмотрел само объявление.
Google делает шаг в будущее
Голосовой поиск в десктопном браузере? Поиск аналогичных картинок? Мгновенная загрузка результата поиска? Да, теперь Google все это может. В России все эти нововведения должны появиться буквально на днях (правда, голосовой поиск только на английском и только в Google Chrome).
Колдунщики наступают
Google предложил англоязычным пользователям несколько новых колдунщиков, работающих по следующему принципу: если пользователь искал запрос, принадлежащий к четкому списку, этот список будет показан дополнительно с результатами поиска. Например, при запросе названия фильма и имени актера сразу выводится блок с остальными актерами, сыгравшими в этом фильме, а если поинтересоваться одним из греческих философов или греческими философами в целом, появится блок с именами ключевых фигур античной мысли.
Мобильный онлайн-шоппинг неожиданно популярен
Согласно последним исследованиям Google, пользователи очень любят делать покупки именно с мобильных устройств. Предпочитают такой метод 29% американцев, 28% британцев, 17% французов, 28% немцев и целых 45% японцев. Пользуются мобильными устройствами для покупок время от времени 82% американцев, 68% британцев, 82% французов, 65% немцев, 75% японцев.
| | | |