четверг, 7 февраля 2013 г.


Особенности поисковой системы Google

Безусловно, Google является самым лучшим поисковым сервером в мире. В его индексе хранится более 3 миллиардов документов, Google переведен на 26 языков, крупнейшие порталы во всем мире выбрали Google в качестве поискового инструмента (с недавних пор компания Mail.ru стала использовать технологию поиска Google). Новаторская технология PageRank позволила создать качественный поиск и выдавать при запросе более релевантные результаты. Давайте посмотрим на основные отличия Google от других поисковых систем и на его особенности.
 

1) Google'овский паук называется Googlebot. Через файл robots.txt можно запретить роботу Googlebot индексацию каких-либо из ваших страниц. Аналогично этому файлу на работу паука влияют meta-теги. Помимо стандартных noindex, nofollow, index, follow Google использует еще один тег:
 
<meta name="robots" CONTENT="noarchive">
 
Дело в том, что при выдаче результатов, пользователи имеют возможность просмотреть найденную страницу не на вашем сервере, а в кэше Google. При частом обновлении вашего ресурса такая возможность может вам только навредить. Поставив вышеприведенный тег на нужную страницу, Google не сохранит ее в кэш и ваши посетители всегда будут получать только свежую информацию с вашего сайта.
 
Для сужения области действия, вы можете разрешить/запретить какое-нибудь действие только пауку Google. Для этого достаточно вместо name="robots" написать name="googlebot".
 
Пример: <meta name="googlebot" content="noindex, noarchive">
 
Робот-паук Googlebot следует и индексирует документы по ссылкам HREF и SRC.
 

2) Объем проиндексированных документов у Google огромен, и вносить дополнительные изменения в ход индексации паука Google очень сложно. Поэтому нередко Googlebot быстрее сам находит ваш сайт, чем получает информацию из формы AddURL. В любом случае первая индексация вашего сайта произойдет через 2-3 недели. Зато переиндексация идет очень интенсивно, особенно если вы добавите свой сайт в каталог DMOZ. Googlebot просматривает этот каталог практически каждый день.
 
Но проходит достаточно времени, а ваш сайт до сих пор не проиндексирован. На то могут быть несколько причин.
 
Динамические страницы (.php и т.д.) Google индексирует не в полном объеме. А при использовании сессий паук не проиндексирует сайт вовсе.
 
Если вы используете дорвеи (doorways, об их использовании я расскажу вам в других публикациях).
 
Ваш сайт использует фреймы. Фреймовая структура доставляет неудобство пользователям всех поисковых машин. Хотя Google лучше всех них обрабатывает фреймы, даже он может на них споткнуться. Выхода из сложившейся ситуации только два: или составлять полноценное описание в теге <noframes>, или не использовать фреймы вообще.
 

3) Технология PageRank основывается на количестве и "качестве" внешних ссылок на ваш сайт. Именно от нее в первую очередь зависит релевантность вашей страницы и, соответственно, положение вашей страницы в результатах поиска (в России подобную технологию использует Яндекс, она называется Яндекс цитирования (CY)).
 
Кроме PageRank на релевантность страницы влияет:
 
- Имя вашего домена;
 
- Текст заголовка страницы (тот, что в теге <title>);
 
- Текст ссылок, ведущих с других серверов на ваш сайт;
 
- Содержимое атрибута ALT;
 
- Наличие ключевых слов в заголовках <h1>, <h2> ...;
 
- Визуальное выделение ключевых слов (<b>, размер, цвет);
 
- Плотность ключевых слов на странице, т.е. их частота в документе.
 

***
 
Вот, пожалуй, это все особенности поисковой системы Google. Но кое-какие моменты в поиске Google выходят за рамки представленной статьи, поэтому публикации об этой системе в дальнейшем будут продолжены.

Общая информация о Google Apps Marketplace
Google Apps Marketplace позволяет администраторам просматривать, приобретать и развертывать интегрированные облачные бизнес-приложения. Этот ресурс доступен для Google Apps, Google Apps для бизнеса и Google Apps для учебных заведений.
Перед развертыванием приложений в организации рекомендуем выполнить указанные ниже действия.
Гарантии и поддержка для приложений независимых разработчиков из каталога Google Apps Marketplace предоставляются их поставщиками, а не службой поддержки Google Apps.
Если вы разработчик, ознакомьтесь с информацией о разработке и продаже приложений и услуг на Marketplace.



Интересная информация о поисковых системах

SandBox от Google

Таинственное словосочетание Google SandBox (песочница Google) появилось в среде оптимизаторов в начале 2004 года. Это название получил новейший спам-фильтр, разработанный компанией Google специально для борьбы со спам-сайтами. Однако метод, который для этого использовался, сразу вызвал массу нареканий со стороны владельцев сайтов и оптимизаторов. Дело в том, что Google SandBox исключал из выдачи поисковой системы только что созданные молодые сайты.
При этом вновь созданный сайт не попадает в выдачу поисковой системы Google по практически по любой фразе, что сводит на нет все усилия оптимизаторов. Каким бы качественным не был сайт, какой бы полезной и интересной не была информация на нем, какой бы эффективным ни было продвижение сайтов, наличие в поисковой системе фильтра Google SandBox не давало Интернет-пользователям узнать о его существовании.
Разработчики фильтра оправдывались тем, что такой метод является эффективным способом борьбы с спам-сайтами. Действительно, ни один спамер не станет тратить деньги на создание сайта, который начнет работать только через несколько месяцев. Однако фильтра страдало гораздо большее количество нормальных, только созданных сайтов. В настоящее время Google SandBox отсеивает новые сайты только в англоязычном сегменте сети Интернет – сайты на других языках фильтрации не подлежат. Однако никто не может дать гарантии, что Google решит расширить возможности фильтра.
Какой алгоритм работы песочницы, и каковы признаки нахождения сайта в ней до сих пор известно только разработчикам SandBox, однако за годы работы фильтра было выявлено несколько закономерностей, которые можно использовать в качестве утверждений.
·         SandBox фильтрует только молодые сайты. Попавшие в песочницу сайты находятся в ней неопределенное время, наверное, пока поисковая система не посчитает их достаточно «старыми» и не переведет в разряд нормальных сайтов.
·         Принцип действия SandBox по некоторым данным основывается на фильтрации внешних ссылок, возраст которых менее определенного времени (несколько месяцев). Поэтому возможны случаи, когда фильтр не имеет претензий к самому сайту, но не учитывает внешние ссылки на него, если с момента их размещения не прошло определенного отрезка времени. Отсутствие внешних ссылок при ранжировании играет огромную роль, поэтому такие сайты практически не имеют шансов попасть в ТОП выдачи поисковой системы.
·         SandBox может держать сайт в песочнице от 2 месяце до года и более. При этом замечено, что сайты выходят из нее большими группами. Поэтому можно сделать заключение, что срок содержания в песочнице не рассчитывается индивидуально для каждого сайта, а определяется для больших групп (в одной группе находятся сайты, созданные приблизительно в одно время).
Обойти фильтр практически невозможно для обычного вебмастера. Есть ряд предложений, однако реализовать их под силу немногим. Поэтому больше ничего не остается, как ждать окончания действия фильтра. Заметить, что сайт попа под действие SandBox можно по нескольким признакам. Сайт нормально индексируется: на него регулярно заходит поисковый робот, у него есть свой PageRank, корректно принимаются и отображаются внешние ссылки, поиск по адресу сайта выдает правильные результаты (заголовок, сниппет и т.д.), сайт может находиться в поиске по уникальным словам и словосочетаниям. При этом сайт не попадает даже в ТОП 1000 по любым другим запросам, в том числе по тем, под которые создавался. Выход сайта из песочницы можно заметить сразу: у сайта наблюдается резкий, практически моментальный прирост рейтингов на 500 и более позиций.

LocalRank от Google

В феврале 2003 года компания Google получила патент на новый алгоритм ранжирования страниц под названием LocalRank. В его основе лежит не ранжирование всех страниц в Интернете на основе их общей ссылочной цитируемости, а использовать их «локальную» цитируемость, то есть цитируемость среде группы страниц, имеющих единую тематику с поисковым запросом.
В том виде, в котором алгоритм описан в патенте, он сегодня не используется, однако ряд содержащихся в нем идей будет интересен для любого оптимизатора, чтобы сделать продвижение сайтов более эффективным. Тематика ссылающихся страниц учитывается во всех поисковых системах. Несмотря на то, что это происходит по другим алгоритмам, изучение патента LocalRank позволит оптимизатору понять основные механизмы и общие идеи реализации такого учета.

Алгоритм LocalRank состоит из 3-х основных частей.

·         С помощью специального алгоритма отбирается N (определенное число) документов, релевантных поисковому запросу. Эти документы (страницы) предварительно сортируются согласно некоторому параметру, например, значению PageRank, оценке релевантности и т.д. Численное значение этого параметра обозначается, как OldScore.
·         Происходит новая процедура ранжирования каждой из N страниц. В результате, каждая из них получает новый показатель LocalScore.
·         Величины LocalScore и OldScore перемножаются, а результатом является новая величина NewScore, исходя из значений которой, происходит заключительное ранжирование страниц.
Ключевым этапом работы алгоритма является процедура ранжирования и получения страницей нового ранга LocalScore, поэтому рассмотрим этот пункт подробнее.
1. Для расчета LocalScore выделяются все страницы, которые релевантные поисковому запросу (их число равно N). Каждая из них имеет некоторый ранг OldScore. Алгоритм ранжирования в дальнейшем будет работать только с этими страницами. Из этих N страниц выделяются страницы, имеющие внешнюю ссылку на данную страницу (их число равно M). При этом происходит фильтрация страниц по IP адресу, чтобы в множество M не попали страницы, расположенные на том же хосте, что и рассматриваемая страница.
2. В множестве М выделяются подмножества Li, в которые попадают страницы с одинаковыми признаками: принадлежат одному хосту (совпадают первые три октета IP адреса), имеют одинаковое или схожее содержание (так называемые зеркала), относятся к одному сайту (домену).
3. У каждой страницы из подмножества Li также имеется свой ранг OldScore. Из них выбирается страница с самым большим рангом OldScore, а остальные далее не рассматриваются. Таким образом, из изначального множества N мы получаем некоторое множество страниц K, которые ссылаются на данную страницу и обладают набольшим «весом» на своем хосте.
4. Согласно параметру OldScore страницы из множества K сортируются, после сего остаются только первые k страниц.
5. По выбранным k страницам рассчитывается общий показатель OldScore. Это происходит путем суммирования их показателей по формуле LocalScore= В этой формуле m – это некоторый параметр, значение которого может задаваться в диапазоне от 1 до 3. После того, как аналогичны образом будет подчитан LocalScore для каждой страницы из множества N, осуществляется расчет значений NewScore и происходит ранжирование страниц согласно полученным значениям. NewScore рассчитывается по следующей формуле: Здесь i- рассматриваемая страница, a и b – некоторые параметры (в патенте не указано, откуда они берутся), MaxLS – максимальное значение LocalScore, MaxOS – максимальное значение OldScore.
Если описать работу алгоритма словами, то мы получим следующее. На первом этапе из числа страниц, соответствующих поисковому запросу, отбирается некоторое число страниц. Отбор происходит по параметрам, не учитывающим тематику внешних ссылок, например, по ссылочной популярности и релевантности.
После того, как будет отобрана группа страниц, подсчитывается локальная ссылочная популярность каждой из них. Пи это все страницы имеют схожую тематику, так как на основе ссылок, так или иначе связаны с поисковым запросом. Анализируя взаимные ссылки страниц в данной группе, и игнорируя все остальные страницы, можно получить нужную локальную ссылочную популярность.
Таким образом, мы имеем два параметра: OldScore (рейтинг страницы, соответствующий ее общей ссылочной популярности, релевантности и т.д.) и LocalScore (рейтинг страницы, рассчитанный среди тематически связанных страниц). На основе этих двух рейтингов рассчитывается новый, итоговый рейтинг страницы, а затем происходит заключительное ранжирование страниц.

Особенности работы поисковых систем

Все методы и идеи по увеличению ссылочной популярности сайта и его текстовой оптимизации, о которых говорилось выше, одинаково применимы ко всем поисковым системам. Несмотря на то, что больше внимания уделялось системе Google, все идеи, рассмотренные относительно этой системы, применимым и ко всем остальным поисковым системам, а значит раскрутка сайтов в любом поисковике происходит одинаково. Повышенное внимание к Google объясняется лишь тем, что информации по этой системе в свободном доступе представлено больше, чем по всем остальным. Поэтому можно сделать вывод, что алгоритмы поисковым систем, несмотря на различия в некоторых деталях, работают приблизительно одинаково и подчиняются общим правилам. Зная эти правила, сео-оптимизатор и вебмастер могут существенно повысить позиции любого сайта во всех поисковых системах. Однако у поисковых систем есть ряд своих особенностей, о которых речь пойдет ниже.









Комментариев нет:

Отправить комментарий