четверг, 7 февраля 2013 г.

Первая сеть

XX век. 1994-й год был годом, когда многие люди впервые услышали о сети Интернет. Этому предшествовало несколько этапов. 2 января 1969 года Управление перспективных исследований (ARPA) , являющееся одним из подразделений Министерства обороны США, начало работу над проектом связи компьютера оборонных организаций. В результате исследований была создана сеть ARPAnet. Но в отличие от ARPAnet , интернет вырос из множества небольших, независимых локальных сетей, принадлежащих компаниям и другим организациям, которые смогли увидеть преимущества объединения друг с другом. Следующим этапом в развитии Интернет было создание сети национального научного фонда США (NSF) Сеть, названная NSFnet, объеденила научные центры США. При этом основной сети стали пять суперкомпьютеров, соединённых между собой высокоскоростными линиями связи.

российская мета-поисковая система

Мета-поисковик MetaBot был написан весной 2000 года, с 1-го января 2001 система находилась в процессе активного тестирования. Юридический владелец - компания Metabear Inc. Концепция системы разработана Александром Фоминым и Константином Айги.Константин Айги участвовал в ряде интернет-проектов (напр., Referat.com) в качестве программиста. Александр Фомин руководил созданием нескольких интернет-проектов, предназначенных для раскрутки офлайновых услуг (Study.ru, Canada.ru и др.).

Мета-поиск - лучший друг

Вы можете знать - или не знать, - но ни в одной из поисковых систем нет индекса ВСЕХ существующих веб-страниц. OpenFind утверждает, что содержит в индексе 3,5 миллиона веб-страниц, Google сообщает о 2,4 миллиона, AlltheWeb - 2,1 миллиона, Inktomi - чуть больше 2 миллионов, WiseNut - 1,5 миллиона, а AltaVista - 1 миллион веб-страниц.На самом деле, никто не знает, насколько простирается всемирная паутина. Одни считают, что в ней 5 миллионов страниц, другие - 8 миллионов, а третьи - даже больше. В любом случае, совершенно точно то, что основные поисковые системы (ПС) индексируют только часть "публично индексируемой паутины". Кроме того, каждая ПС индексирует разные веб-страницы, а это значит, что, пользуясь только одной ПС, вы упустите соответствующие запросу результаты, которые можно найти в других поисковых системах. Единственный способ сделать поиск по WWW более эффективным - использовать мета-поисковую систему.

Что такое мета-поисковая система

Мета-поисковая система (также называемая метакраулером или мульти-поточной системой) - это поисковый инструмент, посылающий ваш запрос одновременно на несколько поисковых систем (ПС), каталогов и, иногда, в так называемую невидимую (скрытую) паутину - собрание онлайновой информации, не проиндексированной традиционными поисковыми системами. Собрав результаты, мета-поисковая система (МПС) удаляет дублированные ссылки и, в соответствии со своим алгоритмом, объединяет/ранжирует результаты в общем списке.

Важно: в отличии от отдельных поисковых систем и директорий, мета-поисковые системы:
- не имеют собственных баз данных
- не регистрируют URLы сайтов
Основное отличие мета-поисковой системы от обычного поисковика заключается в предоставлении суммарной информации, полученной от нескольких поисковых систем в соответствии с запросом пользователя. MetaBotопрашивает все значительные Российские поисковые системы и каталоги, обеспечивая максимальный охват Рунета.
Цель системы - сэкономить время пользователя, при этом повысив степень соответствия результатов запросу. Помимо российского и мирового мета-поиска система предоставляет возможность поиска файлов на FTP-серверах, что удобно при скачивании из Сети файлов в формате MP3, видео, картинок, а также программного обеспечения.
Условно говоря, MetaBot состоит из двух интеллектуальных модулей - модуля обработки запроса пользователя и разбора синтаксиса, а также модуля сортировки полученных результатов и спам-фильтра. Первый модуль решает задачу приведения синтаксиса запросов всех опрашиваемых поисковых машин к единой схеме. Т.е. система понимает заявленный синтаксис каждой опрашиваемой поисковой системы и умеет переводить одну синтаксическую схему в другую. Второй модуль сортирует полученные от нескольких поисковых машин результаты с учетом их позиции в результатах поиска опрашиваемых систем. На рейтинг конкретной ссылки также влияют повторы, релевантность отдельно взятого документа и другие факторы. Спам-фильтр отслеживает многократное появление идентичных документов в одном домене и присваивает таковым низший рейтинг.
В результате пользователь получает компактный список ссылок, в котором одинаковые документы объединены в единый блок, описания и заголовки документов выбраны по принципу наибольшего соответствия запросу. В данный момент готовится к публикации подробное описание приемов эффективной работы с поисковой системой, а также описания и сравнительные характеристики отдельных поисковых машин. В скором времени MetaBot обещает представить статистику и сервис для моментального определения рейтинга индексируемости конкретного домена.

Особенности поисковой системы Google

Безусловно, Google является самым лучшим поисковым сервером в мире. В его индексе хранится более 3 миллиардов документов, Google переведен на 26 языков, крупнейшие порталы во всем мире выбрали Google в качестве поискового инструмента (с недавних пор компания Mail.ru стала использовать технологию поиска Google). Новаторская технология PageRank позволила создать качественный поиск и выдавать при запросе более релевантные результаты. Давайте посмотрим на основные отличия Google от других поисковых систем и на его особенности.

1) Google'овский паук называется Googlebot. Через файл robots.txt можно запретить роботу Googlebot индексацию каких-либо из ваших страниц. Аналогично этому файлу на работу паука влияют meta-теги. Помимо стандартных noindex, nofollow, index, follow Google использует еще один тег:
<meta name="robots" CONTENT="noarchive">
Дело в том, что при выдаче результатов, пользователи имеют возможность просмотреть найденную страницу не на вашем сервере, а в кэше Google. При частом обновлении вашего ресурса такая возможность может вам только навредить. Поставив вышеприведенный тег на нужную страницу, Google не сохранит ее в кэш и ваши посетители всегда будут получать только свежую информацию с вашего сайта.
Для сужения области действия, вы можете разрешить/запретить какое-нибудь действие только пауку Google. Для этого достаточно вместо name="robots" написать name="googlebot".
Пример: <meta name="googlebot" content="noindex, noarchive">
Робот-паук Googlebot следует и индексирует документы по ссылкам HREF и SRC.

2) Объем проиндексированных документов у Google огромен, и вносить дополнительные изменения в ход индексации паука Google очень сложно. Поэтому нередко Googlebot быстрее сам находит ваш сайт, чем получает информацию из формы AddURL. В любом случае первая индексация вашего сайта произойдет через 2-3 недели. Зато переиндексация идет очень интенсивно, особенно если вы добавите свой сайт в каталог DMOZ. Googlebot просматривает этот каталог практически каждый день.
Но проходит достаточно времени, а ваш сайт до сих пор не проиндексирован. На то могут быть несколько причин.
Динамические страницы (.php и т.д.) Google индексирует не в полном объеме. А при использовании сессий паук не проиндексирует сайт вовсе.
Если вы используете дорвеи (doorways, об их использовании я расскажу вам в других публикациях).
Ваш сайт использует фреймы. Фреймовая структура доставляет неудобство пользователям всех поисковых машин. Хотя Google лучше всех них обрабатывает фреймы, даже он может на них споткнуться. Выхода из сложившейся ситуации только два: или составлять полноценное описание в теге <noframes>, или не использовать фреймы вообще.

3) Технология PageRank основывается на количестве и "качестве" внешних ссылок на ваш сайт. Именно от нее в первую очередь зависит релевантность вашей страницы и, соответственно, положение вашей страницы в результатах поиска (в России подобную технологию использует Яндекс, она называется Яндекс цитирования (CY)).
Кроме PageRank на релевантность страницы влияет:
- Имя вашего домена;
- Текст заголовка страницы (тот, что в теге <title>);
- Текст ссылок, ведущих с других серверов на ваш сайт;
- Содержимое атрибута ALT;
- Наличие ключевых слов в заголовках <h1>, <h2> ...;
- Визуальное выделение ключевых слов (<b>, размер, цвет);
- Плотность ключевых слов на странице, т.е. их частота в документе.

***
Вот, пожалуй, это все особенности поисковой системы Google. Но кое-какие моменты в поиске Google выходят за рамки представленной статьи, поэтому публикации об этой системе в дальнейшем будут продолжены.

Общая информация о Google Apps Marketplace

Google Apps Marketplace позволяет администраторам просматривать, приобретать и развертывать интегрированные облачные бизнес-приложения. Этот ресурс доступен для Google Apps, Google Apps для бизнеса и Google Apps для учебных заведений.

Перед развертыванием приложений в организации рекомендуем выполнить указанные ниже действия.

Откройте Marketplace по адресу www.google.com/appsmarketplace.
Узнайте, как оценить безопасность приложения Marketplace.
Прочитайте инструкции или просмотрите видео о развертывании приложения в организации.

Гарантии и поддержка для приложений независимых разработчиков из каталога Google Apps Marketplace предоставляются их поставщиками, а не службой поддержки Google Apps.

Если вы разработчик, ознакомьтесь с информацией о разработке и продаже приложений и услуг на Marketplace.

Интересная информация о поисковых системах

SandBox от Google

Таинственное словосочетание Google SandBox (песочница Google) появилось в среде оптимизаторов в начале 2004 года. Это название получил новейший спам-фильтр, разработанный компанией Google специально для борьбы со спам-сайтами. Однако метод, который для этого использовался, сразу вызвал массу нареканий со стороны владельцев сайтов и оптимизаторов. Дело в том, что Google SandBox исключал из выдачи поисковой системы только что созданные молодые сайты.

При этом вновь созданный сайт не попадает в выдачу поисковой системы Google по практически по любой фразе, что сводит на нет все усилия оптимизаторов. Каким бы качественным не был сайт, какой бы полезной и интересной не была информация на нем, какой бы эффективным ни было продвижение сайтов, наличие в поисковой системе фильтра Google SandBox не давало Интернет-пользователям узнать о его существовании.

Разработчики фильтра оправдывались тем, что такой метод является эффективным способом борьбы с спам-сайтами. Действительно, ни один спамер не станет тратить деньги на создание сайта, который начнет работать только через несколько месяцев. Однако фильтра страдало гораздо большее количество нормальных, только созданных сайтов. В настоящее время Google SandBox отсеивает новые сайты только в англоязычном сегменте сети Интернет – сайты на других языках фильтрации не подлежат. Однако никто не может дать гарантии, что Google решит расширить возможности фильтра.

Какой алгоритм работы песочницы, и каковы признаки нахождения сайта в ней до сих пор известно только разработчикам SandBox, однако за годы работы фильтра было выявлено несколько закономерностей, которые можно использовать в качестве утверждений.

· SandBox фильтрует только молодые сайты. Попавшие в песочницу сайты находятся в ней неопределенное время, наверное, пока поисковая система не посчитает их достаточно «старыми» и не переведет в разряд нормальных сайтов.

· Принцип действия SandBox по некоторым данным основывается на фильтрации внешних ссылок, возраст которых менее определенного времени (несколько месяцев). Поэтому возможны случаи, когда фильтр не имеет претензий к самому сайту, но не учитывает внешние ссылки на него, если с момента их размещения не прошло определенного отрезка времени. Отсутствие внешних ссылок при ранжировании играет огромную роль, поэтому такие сайты практически не имеют шансов попасть в ТОП выдачи поисковой системы.

· SandBox может держать сайт в песочнице от 2 месяце до года и более. При этом замечено, что сайты выходят из нее большими группами. Поэтому можно сделать заключение, что срок содержания в песочнице не рассчитывается индивидуально для каждого сайта, а определяется для больших групп (в одной группе находятся сайты, созданные приблизительно в одно время).

Обойти фильтр практически невозможно для обычного вебмастера. Есть ряд предложений, однако реализовать их под силу немногим. Поэтому больше ничего не остается, как ждать окончания действия фильтра. Заметить, что сайт попа под действие SandBox можно по нескольким признакам. Сайт нормально индексируется: на него регулярно заходит поисковый робот, у него есть свой PageRank, корректно принимаются и отображаются внешние ссылки, поиск по адресу сайта выдает правильные результаты (заголовок, сниппет и т.д.), сайт может находиться в поиске по уникальным словам и словосочетаниям. При этом сайт не попадает даже в ТОП 1000 по любым другим запросам, в том числе по тем, под которые создавался. Выход сайта из песочницы можно заметить сразу: у сайта наблюдается резкий, практически моментальный прирост рейтингов на 500 и более позиций.

LocalRank от Google

В феврале 2003 года компания Google получила патент на новый алгоритм ранжирования страниц под названием LocalRank. В его основе лежит не ранжирование всех страниц в Интернете на основе их общей ссылочной цитируемости, а использовать их «локальную» цитируемость, то есть цитируемость среде группы страниц, имеющих единую тематику с поисковым запросом.

В том виде, в котором алгоритм описан в патенте, он сегодня не используется, однако ряд содержащихся в нем идей будет интересен для любого оптимизатора, чтобы сделать продвижение сайтов более эффективным. Тематика ссылающихся страниц учитывается во всех поисковых системах. Несмотря на то, что это происходит по другим алгоритмам, изучение патента LocalRank позволит оптимизатору понять основные механизмы и общие идеи реализации такого учета.

Алгоритм LocalRank состоит из 3-х основных частей.

· С помощью специального алгоритма отбирается N (определенное число) документов, релевантных поисковому запросу. Эти документы (страницы) предварительно сортируются согласно некоторому параметру, например, значению PageRank, оценке релевантности и т.д. Численное значение этого параметра обозначается, как OldScore.

· Происходит новая процедура ранжирования каждой из N страниц. В результате, каждая из них получает новый показатель LocalScore.

· Величины LocalScore и OldScore перемножаются, а результатом является новая величина NewScore, исходя из значений которой, происходит заключительное ранжирование страниц.

Ключевым этапом работы алгоритма является процедура ранжирования и получения страницей нового ранга LocalScore, поэтому рассмотрим этот пункт подробнее.

1. Для расчета LocalScore выделяются все страницы, которые релевантные поисковому запросу (их число равно N). Каждая из них имеет некоторый ранг OldScore. Алгоритм ранжирования в дальнейшем будет работать только с этими страницами. Из этих N страниц выделяются страницы, имеющие внешнюю ссылку на данную страницу (их число равно M). При этом происходит фильтрация страниц по IP адресу, чтобы в множество M не попали страницы, расположенные на том же хосте, что и рассматриваемая страница.

2. В множестве М выделяются подмножества Li, в которые попадают страницы с одинаковыми признаками: принадлежат одному хосту (совпадают первые три октета IP адреса), имеют одинаковое или схожее содержание (так называемые зеркала), относятся к одному сайту (домену).

3. У каждой страницы из подмножества Li также имеется свой ранг OldScore. Из них выбирается страница с самым большим рангом OldScore, а остальные далее не рассматриваются. Таким образом, из изначального множества N мы получаем некоторое множество страниц K, которые ссылаются на данную страницу и обладают набольшим «весом» на своем хосте.

4. Согласно параметру OldScore страницы из множества K сортируются, после сего остаются только первые k страниц.

5. По выбранным k страницам рассчитывается общий показатель OldScore. Это происходит путем суммирования их показателей по формуле LocalScore= В этой формуле m – это некоторый параметр, значение которого может задаваться в диапазоне от 1 до 3. После того, как аналогичны образом будет подчитан LocalScore для каждой страницы из множества N, осуществляется расчет значений NewScore и происходит ранжирование страниц согласно полученным значениям. NewScore рассчитывается по следующей формуле: Здесь i- рассматриваемая страница, a и b – некоторые параметры (в патенте не указано, откуда они берутся), MaxLS – максимальное значение LocalScore, MaxOS – максимальное значение OldScore.

Если описать работу алгоритма словами, то мы получим следующее. На первом этапе из числа страниц, соответствующих поисковому запросу, отбирается некоторое число страниц. Отбор происходит по параметрам, не учитывающим тематику внешних ссылок, например, по ссылочной популярности и релевантности.

После того, как будет отобрана группа страниц, подсчитывается локальная ссылочная популярность каждой из них. Пи это все страницы имеют схожую тематику, так как на основе ссылок, так или иначе связаны с поисковым запросом. Анализируя взаимные ссылки страниц в данной группе, и игнорируя все остальные страницы, можно получить нужную локальную ссылочную популярность.

Таким образом, мы имеем два параметра: OldScore (рейтинг страницы, соответствующий ее общей ссылочной популярности, релевантности и т.д.) и LocalScore (рейтинг страницы, рассчитанный среди тематически связанных страниц). На основе этих двух рейтингов рассчитывается новый, итоговый рейтинг страницы, а затем происходит заключительное ранжирование страниц.

Особенности работы поисковых систем

Все методы и идеи по увеличению ссылочной популярности сайта и его текстовой оптимизации, о которых говорилось выше, одинаково применимы ко всем поисковым системам. Несмотря на то, что больше внимания уделялось системе Google, все идеи, рассмотренные относительно этой системы, применимым и ко всем остальным поисковым системам, а значит раскрутка сайтов в любом поисковике происходит одинаково. Повышенное внимание к Google объясняется лишь тем, что информации по этой системе в свободном доступе представлено больше, чем по всем остальным. Поэтому можно сделать вывод, что алгоритмы поисковым систем, несмотря на различия в некоторых деталях, работают приблизительно одинаково и подчиняются общим правилам. Зная эти правила, сео-оптимизатор и вебмастер могут существенно повысить позиции любого сайта во всех поисковых системах. Однако у поисковых систем есть ряд своих особенностей, о которых речь пойдет ниже.

РАМБЛЕР

Описание поисковика

Однажды в городе Пущино в 1991г. появилась группа людей, которые были вдохновленных недавно появившейся коммуникационной средой Интернет. Дмитрий Крюков, Сергей Лысаков, Виктор Воронков, Владимир Самойлов, Юрий Ершов - это творческие, технически подкованные и смелые люди с активной жизненной позицией и со стремлением к новому, это были создатели поисково системы рамблер т.е. им предстояло её создать. Эти люди в Институте физиологии и биохимии микроорганизмов РАН обслуживали радиотехнические приборы. Дмитрий Крюков вместе с биологами занимался анализом трехмерной структуры ДНК на ЯМР-спектрометре и созданием огромной электронной катротеки микроорганизмов. Находясь в Пущино, возникает сильное желание общаться и связываться с огромным миром, который за лесом. По всей видимости, эта тяга и сподвигла компанию "Стек" во главе с Сергеем Лысаковым заняться локальными сетями и подключением к Интернету. Нормальный, оперативный и эффективный обмен данными был необходим для реализации научных целей. "Стековцы" сами создали внутри города сеть, подключили Пущино к Москве и через нее к Интернету. Это был первый выходящий за пределы Москвы IP-канал в России. Затем подключились к Курчатовскому институту атомной энергии. "Стековцы" вспоминают, что кабели иногда приходилось прокладывать зимой, вручную, под землей и при минусовой температуре! Компания запускает собственные mail и ftp серверы в 1992 году. Через пару лет свой первый www сервер. Таким образом, шаг за шагом Пущино превращается в очень важный узел Мировой Сети.

1996 год стал ключевым в эпохе развития русского интернета, потому что в этот год Сергей Лысаков и Дмитрий Крюков принимают решение разработать первую русскую поисковую систему для Интернета. Команда "Стека" прозорливо сделала ставку на программу-поисковик. Это было ответственное и необоснованное решение, поскольку в то время русский сегмент сети был очень мал не более 40-55 сайтов. А новые разработки означали для компании покупку оборудования, для этого они пошли на жертвы и сократили собственные зарплаты.

Программист Дмитрий Крюков придумал проекту название, он открыл англо-русский словарь и его взгляд упал на rambler. Дмитрию понравилось значение слова "скиталец, странник, бродяга": роботы поисковой машины действительно ходят по сайтам, собирая информацию, круглые сутки не зная покоя. За работой сидел и днями, и ночами. Жена Карина приносила обеды и ужины в офис. Когда Дмитрия спрашивают, что это значит для программиста - создать такую программу, он спокойно отвечает: это интересно, это проверка себя, своих сил. Это не настолько сложно, чтобы отказывать себе в удовольствии сделать это. Через несколько месяцев, к осени 1996 года, был готов окончательный вариант поисковой системы рамблер. 26 сентября был зарегистрирован доменwww.rambler.ru, а 8 октября "Стек" активизировал систему.

В тот момент в Рунете уже существовало две-три поисковые системы - но они не выдержали проверки временем и быстро исчезли. Но рамблер эволюционировал и развивался. Рамблерупришлось пройти через огонь и воду. Сергей Лысаков и Дмитрий Крюков рассказывают, что однажды на верхнем этаже прорвало трубу и сервер, на котором работала поисковая система рамблер, пришлось просушивать. К счастью, ничего не сломался. В другой раз подвело железо: сгорели жесткие диски. Сергей и Дмитрий в тот же день съездили в Москву и срочно купили за бешеные деньги новые устройства. Поисковая система рамблер не работала всего одни сутки. Для отладки работыпоисковой системы рамблер приходилось очень подолгу сидеть за компом и неотрывно контролировать процесс поиска и поток запросов. Рамблер держался на энтузиазме своих создателей, на воле и вере в правильность выбранного пути.

В 1997 году, весной появляется Rambler Top100 уникальный рейтинг-классификатор, он оценивает популярность российских ресурсов на основе объективных данных и позволяет попасть на них одним "кликом". Вся история Рунета разделилась на "до" и "после". Появление такого счетчика, который был способен направлять аудиторию на разные ресурсы, создало активную конкурентную среду. Веб-мастера стали более тщательно и вдумчиво работать над своими сайтами, стремясь занять в Топ100 более высокие строчки. Большой рейтинг давал преимущества в быстром росте аудитории. Модераторам Топ100 приходится бороться с накрутками - искуственное повышение рейтинга ресурса. В первый год жизни рейтинга объем сегмента сети русскоязычного интернета вырос как минимум на два порядка. Rambler's Top100 быстро стал стандартом медиаизмерений.

26 сентября 2003 года изменился дизайн головной страницы www.rambler.ru, он стал более свежим и вместе с тем остался легко узнаваемым. В июне 2003 года компания запустила новую версию поисковой машины, которая отличается от предыдущей по двум основным параметрам. В новой версии сильно увеличилась скорость поиска, новая архитектура системы обновления поискового индекса, обновление происходит несколько раз в день. Это значит, что Rambler всегда находит даже самые свежие документы, включая последние новости. Rambler понимает живой русский язык, знает, что бывает "б/у", "у.е." и "а/я". Механизм ассоциаций помогает точнее сформулировать свой запрос и быстрее найти искомый ресурс.

Особенности Рамблер

Необходимо заполнить регистрационную анкету в поисковой системе rambler. Это будет гарантией того, что роботы рамблера узнают о Вашем сайте и скорее начнут его индексацию. Анкета находится по адресу http://www.rambler.ru/doc/add_site_form.shtml.

Автоматически роботы rambler сканируют сайты, находящиеся в следующих доменах первого уровня:

• .ru, .su, .ua, .by, .kz, .kg, .uz, .ge

• сайты из других доменов игнорируют

Если Ваш сайт находится вне названных доменов (например, в зонах .com, .org, .net), но существенная часть сайта содержит русскоязычные материалы или, по Вашему мнению, он может представлять интерес для русскоязычной аудитории поисковой системы рамблер, Вы можете отослать письмо на адрес search.support@rambler.ru с просьбой включить Ваш сайт в число сканируемых, либо заполнить форму обратной связи.

Зарегистрируйте сайт в рейтинге Top100 и расставте счетчик на всех страницах сайта. Анкета, заполняемая при регистрации в этом рейтинге, индексируется ежедневно, а специальный роботрамблера дважды в день пополняет базу поисковой машины новыми страницами, на которых размещен счетчик. Таким образом, включение сайта в Тор100 - это самый быстрый способ попасть в результаты поиска!

При заполнении полей анкеты "Название сайта" и "Описание" не следует вводить в них длинные перечни ключевых слов. Эти поля все равно пока не используются для поиска в поисковой системе рамблер. Название и описание должны быть предназначены для прочтения человеком, так как эти поля используются во внутренних базах данных поисковой системы рамблер и просматриваются редакторами.

Рамблер умеет извлекать гиперссылки из объектов Macromedia Flash. Если Ваш сайт имеет заставку или навигационные панели, выполненные c использованием этой технологии, рамблеробработает их, найдет адреса всех страниц сайта и проиндексирует весь сайт. Однако, сами тексты flash-объектов рамблером не индексируются. Это решение принято потому, что большая часть таких объектов содержит элементы навигации, заставки, меню и другие фрагменты, эти элементы очень важные как источники гиперссылок, но как текст малоинформативные. Для сайтов, которые целиком состоят из flash-объектов, рекомендуется создать HTML-копию и зарегистрировать ее в поисковой машине.

Роботы рамблера при сканировании игнорируют поля <meta name="keywords"...> и все другие поля <meta...>, кроме <meta name="robots"...>. Это связано с тем, что поисковая система рамблерстарается индексировать документ таким, какой он есть (то есть таким, каким его видит пользователь).

Не следует также использовать невидимый текст (в котором цвет шрифта совпадает с цветом фона).

Комментарии в документе роботы рамблера тоже не сканируют, поэтому используйте их по прямому назначению. Помните, что каждый комментарий увеличивает размер Вашего документа, а значит, снижает вероятность того, что документ будет просмотрен до конца.

Обратите внимание на заголовки и выделения в документе. Базовые понятия и ключевые для данного сайта слова целесообразно включать в следующие HTML-теги (в порядке значимости):

Чем чаще слово встречается в этих полях, тем более вероятно, что поисковая система рамблервыдаст ссылку на Ваш документ выше в списке результатов поиска. Но, использование этих тегов должно сочетаться с дизайном Вашего сайта, не злоупотребляйте ими.

С точки зрения поиска, использование фреймов в документе не приветствуется. Это не означает, что роботы не умеют сканировать фреймы. Роботы rambler прекрасно справляются с конструкциями фреймов, однако наличие лишнего этажа ссылок (от головного навигационного фрейма к "содержательным") замедляет индексацию.

Включайте в документы с фреймами HTML-тег <noframes> с текстом документа и ссылками. Разумеется, это увеличит размер документа, но будет являться актом доброй воли по отношению кпоисковой системе рамблер и к другим поисковым машинам.

Максимальный размер документа для роботов рамблера составляет 200 килобайт. Документы большего размера усекаются до указанной величины.

Роботы рамблера обрабатывают ссылки типа <a href=".../imagemap ...">, однако наряду со ссылкой такого вида мы рекомендуем поместить в текст документа конструкцию <map name="name">. Это позволит ускорить индексацию документов которые указанны в imagemap, и обычным браузерам будет обеспечен более лёгкий доступ к документам.

Когда пишите контент для сайта необходимо следить за соблюдением русско-латинского регистров. Например вместо русской 'р' используют латинскую 'p', вместо русского 'с' - латинское 'c'. Некоторые подобные ошибки индексатор поисковой системы рамблер исправляет, но не все. Слова с такими опечатками теряют свою информативность.

Для поисковой системы рамблер не используйте дефисы '-' как символы переноса. Слова будут разбиваться и терять информативность; кроме того, такие переносы имеют все шансы оказаться у пользователя в середине строки.

Часто изменяющиеся документы рекомендуется исключить из списка индексируемых, т. к. актуальность этих документов для рамблера быстро теряется. Осуществить это можно с помощью стандартного для HTTP механизма - посредством файла robots.txt в головной директории Вашего сайта или HTML-тега <meta name="robots" ...>.

Части документа, не требующие, по Вашему мнению, индексации, можно отделять в документе с помощью тегов <noindex> ... </noindex>. Из частей документа, размеченных этими тегами, также не будут выделены ссылки для дальнейшего обхода.

При задании перекрестных ссылок в документе будьте внимательны, проверяйте работоспособность каждой ссылки, иначе роботы поисковой системы рамблера не смогут добраться до Ваших документов.

Следует также иметь в виду, что с точки зрения HTML записи типа:

<a href="directory" ...> и <a href="directory/" ...> ("слэш" в конце href) являются разными ссылками. Обычно при запросе по первой ссылке робот рамблера получит редирект на вторую, а значит извлечет сам документ при обращении к Вашему серверу только на следующем проходе. Тем самым Вы замедляете индексацию Вашего сайта.

Апорт — поисковая система, которой уже нет

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Опять я все проворонил, так же как и приходоблачной технологии в лице Яндекс Диска (о нем шла речь в предыдущей статье). Оказывается, что в прошлом году умер старейший поисковик рунета Aport, и уподобившись Рамблеру стал использовать у себя поисковый движок Яндекса. Но это еще полбеды, ибо в этом году, даже такой куцый вариант поисковой системы Апорт перестал существовать — доменное имя Aport.ru (что такое домены) было продано за довольно смешные деньги и теперь там живет ГС барахолка. Поисковая система пока еще доступна наподдомене, но не понятно как долго это будет продолжаться.

Для кого-то это рядовое событие, но ведь Aport был пионером в рунете и имел все шансы занять место Яндекса на небосклоне. Не сложилось, как и у Рамблера, но вот такой печальный финал выглядит для меня несколько неожиданным. Думаю, что многие начинали свой путь в большом интернете, используя в числе прочих поисковиков и Апорт, поэтому я и решил написать небольшой реквием по этому случаю.

четверг, 7 февраля 2013 г.