Albero-kuhni.ru

Доходы и заработок
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Назовите наиболее популярные поисковые машины интернета

Назовите наиболее популярные поисковые машины интернета

Поисковые машины

Введение

Одним из основных способов найти информацию в Internet являются поисковые машины. Поисковые машины каждый день «ползают» по Сети: они посещают веб-страницы и заносят их в гигантские базы данных. Это позволяет пользователю набрать некоторые ключевые слова, нажать «submit» и увидеть, какие страницы удовлетворяют его запросу.
Понимание того как работают поисковые машины просто необходимо вебмастерам. Для них жизненно важна правильная с точки зрения поисковых машин структура документов и всего сервера или сайта. Без этого документы будут недостаточно часто появляться в ответ на запросы пользователей к поисковой машине или даже вовсе могут быть не проиндексированы.
Вебмастера желают повысить рейтинг своих страниц и это понятно: ведь на любой запрос к поисковой машине могут быть выданы сотни и тысячи отвечающих ему ссылок на документы. В большинстве случаев только 10 первых ссылок обладают достаточной релевантностью к запросу.
Естественно, хочется, чтобы документ оказался в первой десятке, поскольку большинство пользователей редко просматривает следующие за первой десяткой ссылки. Иными словами, если ссылка на документ будет одиннадцатой, то это также плохо, как если бы ее не было вовсе.

Основные поисковые машины

Какие из сотен поисковых машин действительно важны для вебмастера?
Ну, разумеется, широко известные и часто используемые.
Но при этом следует учесть ту аудиторию, на которую рассчитан Ваш сервер. Например, если Ваш сервер содержит узкоспециальную информацию о новейших методах доения коров, то вряд ли Вам стоит уповать на поисковые системы общего назначения. В этом случае я посоветовал бы обменяться ссылками с Вашими коллегами, которые занимаются сходными вопросами:-) Итак, для начала определимся с терминологией.
Существует два вида информационных баз данных о веб-страницах: поисковые машины и каталоги.

Поисковые машины: (spiders, crawlers) постоянно исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Примером может быть поисковая система Altavista.
Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.

Каталоги: в отличие от поисковых машин в каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Примером каталога может служить Yahoo.
Конструкция страниц значения не имеет.
Далее речь пойдет в основном о поисковых машинах.

Altavista

Система открыта в декабре 1995. Принадлежит компании DEC С 1996 года сотрудничает с Yahoo

Excite Search

Запущенная в конце 1995 года, система быстро развивалась. В июле 1996 куплена Magellan, в сентябре 1996 — приобретена WebCrawler. Однако, оба используют ее отдельно друг от друга. Возможно в будущем они будут работать вместе.
Существует в этой системе и каталог — Excite Reviews. Попасть в этот каталог — удача, поскольку далеко не все сайты туда заносятся. Однако информация из этого каталога не используется поисковой машиной по умолчанию, зато есть возможность проверить ее после просмотра результатов поиска.

HotBot

Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi.

InfoSeek

Запущена чуть раньше 1995 года, широко известна, прекрасно ищет и легко доступна. В настоящее время «Ultrasmart/Ultraseek» содержит порядка 50 миллионов URL.
Опция для поиска по умолчанию Ultrasmart. В этом случае поиск производится по обоим каталогам. При опции Ultraseek результаты запроса выдаются без дополнительной информации. Поистине новая поисковая технология также позволяет облегчить поиски и множество других особенностей, которые Вы можете прочитать об InfoSeek
Существует отдельный от поисковой машины каталог InfoSeek Select.

Lycos

Примерно с мая 1994 года работает одна из старейших поисковых систем Lycos. Широко известная и часто используемая. В ее состав входит поисковая машина Point (работает с 1995 года) и каталог A2Z (работает с февраля 1996 года).

OpenText

Система OpenText появилась чуть раньше 1995 года. С июня 1996 года стала партнерствовать с Yahoo. Постепенно теряет свои позиции и вскоре перестанет входить в число основных поисковых систем.

WebCrawler

Открыта 20 апреля 1994 года как исследовательский проект Вашингтонского Университета. В марте 1995 года была приобретена компанией America Online
Существует каталог WebCrawler Select.

Yahoo

Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен еще один каталог Yahoo — Yahooligans для детей. Появляются все новые и новые региональные и top-каталоги Yahoo.
Поскольку Yahoo основан на подписке пользователей, в нем может не быть некоторых сайтов. Если поиск по Yahoo не дал подходящих результатов, пользователи могут воспользоваться поисковой машиной. Это делается очень просто. Когда делается запрос к Yahoo, каталог переправляет его к любой из основных поисковых машин. Первыми ссылками в списке удовлетворяющих запросу адресов идут адреса из каталога, а затем идут адреса, полученные от поисковых машин, в частности от Altavista.

Особенности поисковых машин

Каждая поисковая машина обладает рядом особенностей. Эти особенности следует учитывать при изготовлении своих страниц. Ниже приведена сравнительная таблица основных поисковых машин. Прочерк означает неизвестные или неисследованные значения.

Тип поисковой машины

«Полнотекстовые» поисковые машины индексируют каждое слово на веб-странице, исключая лишь некоторые стоп-слова. «Абстрактные» поисковые машины создают некий экстракт каждой страницы.
Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако для абстрактных поисковых машин может случиться, что страницы проиндексированы лучше, чем для полнотекстовых. Это может исходить от алгоритма экстрагирования, например по частоте употребления в странице одних и тех же слов.

Размер

Размер поисковой машины определяется количеством проиндексированных страниц. Приведенные в таблице значения не слишком точны, но могут прояснить некоторые моменты. Например, в поисковой машине с большим размером могут быть проиндексированы почти все ваши страницы, при среднем объеме ваш сервер может быть частично проиндексирован, а при малом объеме ваши страницы могут вообще не попасть в каталоги поисковой машины.

Период обновления

Поскольку Веб изменяется непрерывно, поисковые машины индексируют все без учета даты. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть однодневной давности, а могут быть и месячной давности, а то и больше.
Вот некоторые причины, по которым это происходит:

  • некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы
  • другие чаще могут «ползать» по наиболее популярным страницам сети, чем по другим.

Дата индексирования документа

Некоторые поисковые машины показывают дату, когда был проиндексирован тот или иной документ. Это помогает пользователю понять, какой «свежести» ссылку выдает поисковая система. Другие оставляют пользователям только догадываться об этом.

Указанные (submitted) страницы

В идеале поисковые машины должны найти любые страницы любого сервера в результате прохода по ссылкам. Реальная картина выглядит по-другому. Станицы серверов гораздо раньше появляются в индексах поисковых систем, если их прямо указать (Add URL).

Не указанные (non-submitted) страницы

Если хотя бы одна страница сервера указана, то поисковые машины обязательно найдут следующие страницы по ссылкам из указанной. Однако на это требуется больше времени. Некоторые машины сразу индексируют весь сервер, но большинство все-таки, записав указанную страницу в индекс, оставляют индексирование сервера на будущее.

Глубина индексирования

Этот параметр относится только к не указанным страницам. Он показывает сколько страниц после указанной будет индексировать поисковая система.
Большинство крупных машин не имеют ограничений по глубине индексирования. На практике же это не совсем так. Вот несколько причин, по которым могут быть проиндексированы не все страницы:

  • не слишком аккуратное использование фреймовых структур (без дублирования ссылок в управляющем (frameset) файле )
  • использование imagemap без дублирования их обычными ссылками

Поддержка фреймов

Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

Поддержка ImageMap

Тут примерно та же проблема, что и с фреймовыми структурами серверов

Защищенные паролями директории и сервера

Некоторые поисковые машины могут индексировать такие сервера, если им указать Username и Password. Зачем это нужно? Чтобы пользователи видели, что есть на Вашем сервере. Это позволяет как минимум узнать, что такая информация есть, и, быть может, они тогда подпишутся на Вашу информацию.

Частота появления ссылок

Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются из других мест Сети. Некоторые машины на основании таких данных «делают вывод» стоит или не стоит тратить время на индексирование такого документа.

«Способность к обучению»

Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать, если редко — реже.

Контроль индексации

Показывает, какими средствами можно управлять той или иной поисковой машиной. Все крупные поисковые машины руководствуются предписаниями файла robots.txt. Некоторые также поддерживают контроль с помощью META-тагов из самих индексируемых документов.

Перенаправление (redirect)

Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает какой URL будет связан с вашими документами. Это важно, поскольку, если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы с несуществующими файлами.

Стоп-слова

Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. А не включают их ради экономии места на носителях. Например, Altavista игнорирует слово web и для запросов типа web developer будут выданы ссылки только по второму слову. Существуют способы избежать подобного.

Читать еще:  Удаленная работа в интернете для начинающих

Влияние на алгоритм определения релевантности

Поисковые машины обязательно используют расположение и частоту повторения ключевых слов в документе. Однако, дополнительные механизмы увеличения степени релевантности для каждой машины различны. Этот параметр показывает, какие именно механизмы существуют для той или иной машины.

Spam-штрафы

Все крупные поисковые системы «не любят», когда какой-либо сайт пытается повысить свой рейтинг путем, например, многократного указания себя через Add URL или многократного упоминания одного и того же ключевого слова и т. д. В большинстве случаев подобные действия (spamming, stacking) караются, и рейтинг сайта наоборот падает.

Поддержка META-тагов

По идее, все поисковые машины должны учитывать метаданные при индексации страниц, однако на практике не все это делают. Как использовать метаданные можно прочитать в статьях «Несколько слов о работе роботов поисковых машин» и «Использование META-тагов».

Title

Этот параметр показывает как поисковые машины генерируют заголовки ссылок для пользователя в ответ на его запрос.

Description

Этот параметр показывает как поисковые машины генерируют описания ссылок для пользователя в ответ на его запрос.

Проверка статуса URL

Очень полезная для вебмастера черта поисковой машины — можно ли проверить насколько глубоко проиндексирован его сервер и есть ли он вообще в индексе поисковой машины.

Поисковые машины

Введение

Одним из основных способов найти информацию в Internet являются поисковые машины. Поисковые машины каждый день «ползают» по Сети: они посещают веб-страницы и заносят их в гигантские базы данных. Это позволяет пользователю набрать некоторые ключевые слова, нажать «submit» и увидеть, какие страницы удовлетворяют его запросу.

Понимание того как работают поисковые машины просто необходимо вебмастерам. Для них жизненно важна правильная с точки зрения поисковых машин структура документов и всего сервера или сайта. Без этого документы будут недостаточно часто появляться в ответ на запросы пользователей к поисковой машине или даже вовсе могут быть не проиндексированы.

Вебмастера желают повысить рейтинг своих страниц и это понятно: ведь на любой запрос к поисковой машине могут быть выданы сотни и тысячи отвечающих ему ссылок на документы. В большинстве случаев только 10 первых ссылок обладают достаточной релевантностью к запросу.

Естественно, хочется, чтобы документ оказался в первой десятке, поскольку большинство пользователей редко просматривает следующие за первой десяткой ссылки. Иными словами, если ссылка на документ будет одиннадцатой, то это также плохо, как если бы ее не было вовсе.

Основные поисковые машины

Какие из сотен поисковых машин действительно важны для вебмастера? Ну, разумеется, широко известные и часто используемые. Но при этом следует учесть ту аудиторию, на которую рассчитан Ваш сервер. Например, если Ваш сервер содержит узкоспециальную информацию о новейших методах доения коров, то вряд ли Вам стоит уповать на поисковые системы общего назначения. В этом случае я посоветовал бы обменяться ссылками с Вашими коллегами, которые занимаются сходными вопросами Итак, для начала определимся с терминологией.

Существует два вида информационных баз данных о веб-страницах: поисковые машины и каталоги.

Поисковые машины: (spiders, crawlers) постоянно исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Примером может быть поисковая система Altavista.

Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.

Каталоги: в отличие от поисковых машин в каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Примером каталога может служить Yahoo. Конструкция страниц значения не имеет. Далее речь пойдет в основном о поисковых машинах.

Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo.

Запущенная в конце 1995 года, система быстро развивалась. В июле 1996 куплена Magellan, в сентябре 1996 — приобретена WebCrawler. Однако, оба используют ее отдельно друг от друга. Возможно в будущем они будут работать вместе.

Существует в этой системе и каталог — Excite Reviews. Попасть в этот каталог — удача, поскольку далеко не все сайты туда заносятся. Однако информация из этого каталога не используется поисковой машиной по умолчанию, зато есть возможность проверить ее после просмотра результатов поиска.

Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi.

Запущена чуть раньше 1995 года, широко известна, прекрасно ищет и легко доступна. В настоящее время «Ultrasmart/Ultraseek» содержит порядка 50 миллионов URL.

Опция для поиска по умолчанию Ultrasmart. В этом случае поиск производится по обоим каталогам. При опции Ultraseek результаты запроса выдаются без дополнительной информации. Поистине новая поисковая технология также позволяет облегчить поиски и множество других особенностей, которые Вы можете прочитать об InfoSeek. Существует отдельный от поисковой машины каталог InfoSeek Select.

Примерно с мая 1994 года работает одна из старейших поисковых систем Lycos. Широко известная и часто используемая. В ее состав входит поисковая машина Point (работает с 1995 года) и каталог A2Z (работает с февраля 1996 года).

Система OpenText появилась чуть раньше 1995 года. С июня 1996 года стала партнерствовать с Yahoo. Постепенно теряет свои позиции и вскоре перестанет входить в число основных поисковых систем.

Открыта 20 апреля 1994 года как исследовательский проект Вашингтонского Университета. В марте 1995 года была приобретена компанией America Online Существует каталог WebCrawler Select.

Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен еще один каталог Yahoo — Yahooligans для детей. Появляются все новые и новые региональные и top-каталоги Yahoo.

Поскольку Yahoo основан на подписке пользователей, в нем может не быть некоторых сайтов. Если поиск по Yahoo не дал подходящих результатов, пользователи могут воспользоваться поисковой машиной. Это делается очень просто. Когда делается запрос к Yahoo, каталог переправляет его к любой из основных поисковых машин. Первыми ссылками в списке удовлетворяющих запросу адресов идут адреса из каталога, а затем идут адреса, полученные от поисковых машин, в частности от Altavista.

Особенности поисковых машин

Каждая поисковая машина обладает рядом особенностей. Эти особенности следует учитывать при изготовлении своих страниц.

Тип поисковой машины

«Полнотекстовые» поисковые машины индексируют каждое слово на веб-странице, исключая лишь некоторые стоп-слова. «Абстрактные» поисковые машины создают некий экстракт каждой страницы.

Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако для абстрактных поисковых машин может случиться, что страницы проиндексированы лучше, чем для полнотекстовых. Это может исходить от алгоритма экстрагирования, например по частоте употребления в странице одних и тех же слов.

Размер поисковой машины определяется количеством проиндексированных страниц. Например, в поисковой машине с большим размером могут быть проиндексированы почти все ваши страницы, при среднем объеме ваш сервер может быть частично проиндексирован, а при малом объеме ваши страницы могут вообще не попасть в каталоги поисковой машины.

  • некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы
  • другие чаще могут «ползать» по наиболее популярным страницам сети, чем по другим

Дата индексирования документа

Некоторые поисковые машины показывают дату, когда был проиндексирован тот или иной документ. Это помогает пользователю понять, какой «свежести» ссылку выдает поисковая система. Другие оставляют пользователям только догадываться об этом.

Указанные (submitted) страницы

В идеале поисковые машины должны найти любые страницы любого сервера в результате прохода по ссылкам. Реальная картина выглядит по-другому. Станицы серверов гораздо раньше появляются в индексах поисковых систем, если их прямо указать (Add URL).

Не указанные (non-submitted) страницы

Если хотя бы одна страница сервера указана, то поисковые машины обязательно найдут следующие страницы по ссылкам из указанной. Однако на это требуется больше времени. Некоторые машины сразу индексируют весь сервер, но большинство все-таки, записав указанную страницу в индекс, оставляют индексирование сервера на будущее.

Этот параметр относится только к не указанным страницам. Он показывает сколько страниц после указанной будет индексировать поисковая система.

Большинство крупных машин не имеют ограничений по глубине индексирования. На практике же это не совсем так. Вот несколько причин, по которым могут быть проиндексированы не все страницы:

  • не слишком аккуратное использование фреймовых структур (без дублирования ссылок в управляющем (frameset) файле)
  • использование imagemap без дублирования их обычными ссылками

Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

Тут примерно та же проблема, что и с фреймовыми структурами серверов.

Защищенные паролями директории и сервера

Некоторые поисковые машины могут индексировать такие сервера, если им указать Username и Password. Зачем это нужно? Чтобы пользователи видели, что есть на Вашем сервере. Это позволяет как минимум узнать, что такая информация есть, и, быть может, они тогда подпишутся на Вашу информацию.

Читать еще:  В какой стране появился интернет

Частота появления ссылок

Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются из других мест Сети. Некоторые машины на основании таких данных «делают вывод» стоит или не стоит тратить время на индексирование такого документа.

Способность к обучению

Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать, если редко — реже.

Показывает, какими средствами можно управлять той или иной поисковой машиной. Все крупные поисковые машины руководствуются предписаниями файла robots.txt. Некоторые также поддерживают контроль с помощью META-тагов из самих индексируемых документов.

Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает какой URL будет связан с вашими документами. Это важно, поскольку, если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы с несуществующими файлами.

Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. А не включают их ради экономии места на носителях. Например, Altavista игнорирует слово web и для запросов типа web developer будут выданы ссылки только по второму слову. Существуют способы избежать подобного.

Влияние на алгоритм определения релевантности

Поисковые машины обязательно используют расположение и частоту повторения ключевых слов в документе. Однако, дополнительные механизмы увеличения степени релевантности для каждой машины различны. Этот параметр показывает, какие именно механизмы существуют для той или иной машины.

Все крупные поисковые системы «не любят», когда какой-либо сайт пытается повысить свой рейтинг путем, например, многократного указания себя через Add URL или многократного упоминания одного и того же ключевого слова и т. д. В большинстве случаев подобные действия (spamming, stacking) караются, и рейтинг сайта наоборот падает.

По идее, все поисковые машины должны учитывать метаданные при индексации страниц, однако на практике не все это делают.

Этот параметр показывает как поисковые машины генерируют заголовки ссылок для пользователя в ответ на его запрос.

Этот параметр показывает как поисковые машины генерируют описания ссылок для пользователя в ответ на его запрос.

Проверка статуса URL

Очень полезная для вебмастера черта поисковой машины — можно ли проверить насколько глубоко проиндексирован его сервер и есть ли он вообще в индексе поисковой машины.

Назовите наиболее популярные поисковые машины интернета

Что такое поисковая машина или как работает поисковик

Как работают поиcковые машины ? Одним из замечательных свойств Интернет является то, что существуют сотни миллионов web-ресурсов, ожидающих и готовых быть представленными нам. Но плохо то, что есть те же миллионы страниц, которые, даже будучи нам нужны, не предстанут перед нами, т.к. просто неизвестны нам. Как узнать, что и где можно найти в интернет? Обычно для этого мы обращаемся к помощи поисковых машин.

Поисковые интернет машины представляют собой специальные сайты в глобальной сети, которые сделаны так, чтобы помочь людям отыскать во всемирной паутине нужную им информацию. Есть различия в способах, которыми поисковые машины выполняют свои функции, но в целом есть 3 основных и одинаковых функции:

— все они «обыскивают» интернет (или какой то сектор интернет) — на основе заданных ключевых слов;
— все поисковики индексируют слова, которые они ищут и места, где они их находят;
— все поисковики позволяют пользователям искать слова или комбинации из ключевых слов на основе уже проиндексированных и занесенных в свои базы данных web-страниц.

Самые первые поисковики индексировали до нескольких сотен тысяч страниц и получали 1,000 — 2,000 запросов в день. Сегодя топовые поисковики проиндексировали и индексируют в непрерывном режиме сотни миллионов страниц, обрабатывают десятки миллионов запросов в день. Ниже будет рассказано о том, как же работают поисковики и каким образом они «складывают» все кусочки найденной информации так, чтобы суметь ответить на любой интересующий нас вопрос.

Когда люди говорят о поисковых интернет машинах, они в действительности имеют в виду поисковые машины World Wide Web. Прежде, чем Web стал наиболее видимой частью интернет, уже существовали поисковые машины, которые помогали людям найти в сети информацию. Программы под названием «gopher» и «Archie» умели индексировать файлы, размещенные на разных серверах, подсоединенных к интернет Internet и многократно снижали временные затраты на поиск нужных программ или документов. В конце 80-х годов прошлого века синонимом «умения работать в интернет» было умение использовать gopher, Archie, Veronica и т.п. поисковые программы. Сегодня большинство интернет пользователей ограничивают свой поиск только всемирной сетью, или WWW.

Перед тем, как ответить вам где найти нужный документ или файл, это файл или документ должен быть уже когда то найден. Чтобы найти информацию о сотнях миллионах существующих WEB-страниц, поисковая машина применяет специальную программу-робот. Эта программа еще называется спайдер («spider», паук) и служит для построения списка слов, найденных на странице. Процесс построения такого списка называется web-краулинг (Web crawling). Чтобы далее построить и зафиксировать «полезный» (имеющий значение) список слов, поисковый паук должен «просмотреть» массу других страниц.

Как же начинает любой паук (spider) свое путешествие по сети ? Обычно стартовой точкой являются наиболее крупные мировые сервера и очень популярных web-страницы. Паук начинает свой путь с такого сайта, индексирует все найденные слова и продолжает свое движение далее, по ссылкам на другие сайты. Таким образом, робот-паук начинает охватывать все большие «куски» web-пространства. Google.com начинался с академического поисковика. В статье, описывающей как была создана эта поисковая машина, Сергей Брин и Лауренс Пейдж (основатели и владельцы Google) привели пример, как быстро работают гугловские пауки. Их несколько и обычно поиск начинается с использованием 3-х пауков. Каждый паук поддерживает до 300 одновременно открытых соединений с web-страницами. При пиковой загрузке, с использованием 4-х пауков, система Гугл способна обработать 100 страниц в секунду, генерируя траффик около 600 килобайт/сек.

Чтобы обеспечить пауков необходимыми для обработки данными, раньше Google располагал сервером, который занимался только тем, что «подбрасывал» паукам все новые и новые URL. Чтобы не зависеть от интернет сервис провайдеров в части серверов доменных имен (DNS), транслирующих url в IP адрес, Google обзавелся собственным сервером DNS, сведя все временные затраты на индексацию страниц до минимума.

Когда Google робот посещает HTML страницу, он принимает во внимание 2 вещи:

— слова (текст) на странцие;
— место их расположения (в какой части body страницы).

Слова, расположенные с служебных разделах, таких как title, subtitles, meta tags и др. помечались как особо важные для пользовательских поисковых запросов. Google паук был построен так, чтобы индексировать каждое подобное слово на странице, за исключением междометий типа «a,» «an» и «the.». Другие поисковики имеют несколько другой подход к индексации.

Все подходы и алгоритмы поисковиков в конечном итоге направлены на то, чтобы заставить роботов пауков работать быстрее и эффективнее. К примеру, некоторые поисковые роботы отслеживают при индексации слова в title, ссылках и до 100 наиболее часто используемых на странице слов и даже каждое из слов первых 20 строк текстового содержания страницы. Таков алгортим индексации, в частности, у Lycos.

Другие поисковики, такие как AltaVista, идут в другом направлении, индексируя каждое отдельное слово странциы, включая «a,» «an,» «the» и други неважные слова.

Метатеги позволяют владельцу web-страницы задавать ключевые слова и понятия, которые определяют суть её содержания. Это очень полезный инструемнт, особенно когда эти ключевые слова могут повторяться до 2-3 раз в тексте страницы. В этом случае мета-теги могу «направить» поисковый робот к нужному выбору ключевых слов для индексации страницы. Существует вероятность «накрутки» мета-тегов сверх популярными поисковыми запросами и понятиями, никак не связаннными с содержанием самой старницы. Поисковые роботы умеют бороься с этим, путем, например, анализа корреляции мета-тегов и содержимого web-страницы, «выкидывая» из рассмотрения те мета-теги (соответственно ключевые слова) , которые не соответствуют содержимому страниц.

Все это касается тех случаев, когда владелец web-ресурса действительно желает быть включенным в поисковые результаты по нужным поисковым словам. Но нередко случается так, что владелец совсем не желает быть проиндексированным роботом. Но такие случаи не относятся к теме нашей статьи.

Как только пауки закончили свою работу по нахождению новых web-страниц, поисковые машины должны разместить всю найденную информацию так, чтобы было удобно в дальнейшем ею пользоваться. Здесь имеют значение 2 ключевых компонента:

— информация, сохраненная вместе с данными;
— метод, которым эта информация проиндексирована.

В простейшем случае, поисковик мог бы просто разместить слово и URL адрес, где оно находится. Но это сделало бы поисковик совсем примитивным инструментом, так как нет никакой информации о том, в какой части документа находится это слово (мета-тегах, или в обычном тексте), используется ли это слово один раз или многократно и содержится ли оно в ссылке на другой важный и близкий по теме ресурс. Другими словами, такой способ не позволит ранжировать сайты, не обеспечит представление пользователям релевантных результатов и т.д.

Чтобы предоставить нам полезные данные, поисковики сохраняют не только информацию из слова и его URL адрес. Поисковик может сохранить данные о количестве (частоте) упоминаний слова на странице, присвоить слову «вес», что далее поможет выдавать поисковые листинги (результаты) на основе весового ранжирования по данному слову, с учетом его местонахождения (в ссылках, мета тегах, титуле страницы и т.п.). У каждого коммерческого поисковика есть своя формула для вычисления «веса» ключевых слов при индексации. Это одна из причин, почему по одному и тому же поисковому запросу поисковики выдают совсем разные результаты.

Читать еще:  Постоянная работа в интернете

Следующий важный момент при обработке найденной информации — её кодирование с целью уменьшения объема дискового пространства для её сохранения. Например, в оригинальной статье Google описано, что для хранения весовых данных слов используется 2 байта (по 8 бит каждый) — при этом учитывается вид слова (большими или прописными буквами), размер самих букв (Font-Size) и др. информация, которая помогает ранжировать сайт. Каждый такой «кусочек» информации требует 2-3 бита данных в полном 2-байтном наборе. В результате громадный объем информации удается сохранять в очень компактном виде. После того, как информация «сжата», пора приступать к индексации.

Цель индексация одна: обеспечить максимально быстрый поиск нужной информации. Существуют несколько путей для построения индексов, но самый эффективный — это построение хеш-таблиц (hash table). При хешировании используется определенная формула, с помощью которой каждому слову присваивается некое численное значение.

В любом языке существуют буквы, с которых начинается гораздо больше слов, чем с остальных букв алфавита. К примеру, слов на букв «M» в разделе английского словаря значительно больше, чем на букву «X». Это означает, что поиск слова, начинающегося с самой популярной буквы потребует больше времени, чем любое другое слово. Хешинг (Hashing) уравнивает эту разницу и уменьшает среднее время поиска, а также разделяет сам индекс от реальных данных. Хеш таблица содержит хеш-значения вместе с указателем на данные, соответствующие этому значению. Эффективная индексация + эффективное размещение вместе обеспечивают высокую скорость поиска, даже если пользователь задаст очень сложный поисковый запрос.

Поиск, основанный на булевских операторах («and», «or», «not») — это буквенный поиск — поисковик получает поисковые слова ровно так, как они введены. Это может вызвать проблему, когда, например, введенное слово имеет множество значений. «Ключ,» например, может означать «средство для открытия двери», а может означать «пароль» для входа на сервер. Если вас интересует только одно значение слова, то вам, очевидно, будут не нужны данные по его второму значению. Можно, конечно, построить буквальный запрос, который позволит исключить вывод данных по ненужному значению слова, но было бы неплохо, если бы поисковик смог сам помочь вам.

Одна из областей исследований в области алгоритмов будущих поисковых машин — это концептуальный поиск информации. Это такие алгоритмы, кгда для нахождения релевантных данных используется статистический анализ страниц, содержащих данное поисковое ключевое слово или фразу. Ясно, что такой «концептуальной поисковой машине» потребуется гораздо больший объем для хранения данных о каждой странице и больше времени для обработки каждого запроса. В настоящее время многие исследователи работают над этой проблемой.

Не менее интенсивно ведутся работы и в области разработки поисковых алгоритмов на основе запросов естественного языка (Natural-Language query).

ТОП-10 поисковых систем мира и России в 2020 году

Здравствуйте! Вы на сайте журнала ПрофиКоммент и сегодня вы узнаете топ-10 самых известных поисковиков, которые используют в Рунете, а также сравните их с десятью популярнейшими поисковыми машинами глобального Интернета.

В отличие от самых популярных интернет-магазинов, главным продуктом поисковых систем является точный результат, а в связи с тем, что аудитория пользователей глобальной сети растет, потребности в данных сервисах увеличиваются. Хотите знать, какая самая популярная поисковая система в мире? Тогда читайте эту статью.

10 самых известных поисковых систем в России в 2020 году

Начнём мы перечисление поисковиков с того, что назовём 10 самых упоминаемых систем в Рунете, не затрагивая те машины, о которых русскоязычные пользователи никогда не слышали.

Google

Google — самая популярная поисковая система в мире, которая занимает первое место в мировом рейтинге. Была создана ещё в 1998 году программистами Сергеем Брином и Ларри Пейджом. Обрабатывает свыше 41 млрд запросов в месяц, в индексе порядка 25 миллиардов веб-страниц, на сайт заходят более 200 миллионов человек по всему миру и набирает более 72% запросов со всего мира. Поисковая система Гугл постоянно совершенствуется и улучшается. Позволяет пользователям искать информацию в мире, включая веб-страницы, изображения и видео. В 2017 году признан самым дорогим брендом в мире. Также корпорации Alphabet Inc. наряду с Google принадлежит браузер Хром и мобильная операционная система Андроид.

Baidu

Baidu — крупнейшая китайская поисковая система среди китайских поисковых систем и второй поисковик мира в 2020 году. В глобальном рейтинге находится на пятой точке по посещаемости. В Baidu содержится более 740 млн веб-страниц, 80 миллионов изображений и 10 миллионов медиафайлов. Основана в 2000 году предпринимателями Робином Ли и Эриком Сю. В России к этому поисковику неоднозначное отношение из-за того, что на сайте отсутствует русификация. Свыше 95% аудитории Байду составляют граждане Китая.

Яндекс

Яндекс — популярная поисковая система в Рунете. Была основана в 1997 году Аркадием Воложом и Ильёй Сегаловичем. Каждый день поиск Яндекса обрабатывает примерно на 280 миллионов запросов, а главной страницей Яндекса ежедневно пользуется 28 млн российских пользователей. По состоянию на 23 января 2020 года, согласно рейтингу Alexa.com, сайт yandex.ru по популярности занимает 52-е место в мире и 4-е в России. С 2017 года компания попала под запрет в Украине.

Yahoo!

Yahoo — это один из старейших и наиболее популярных в Интернете поисковиков. Создали его предприниматели Джерри Янг и Дэвид Фило в далёком 1995 году. Входит в первую двадцатку по посещаемости среди всех веб-сайтов в мировой сети. С 2009 года использует поиск Bing, а с 2017 года куплена компанией Verizon Communications. Крупный интернет-портал и поставщик услуг, предлагающий результаты поиска, настраиваемый контент. Наибольшая доля посетителей – граждане США. В мировом глобальном рейтинге по посещаемости занимает 12-е место.

Mail.ru

Mail.ru — это русскоязычный интернет-портал, принадлежащий крупнейшему IT-гиганту Рунета Mail.Ru Group и имеющий множество тематических проектов, в том числе ВКонтакте, Мой мир и Одноклассник». Ежемесячная аудитория портала составляет 54 миллиона человек и занимает 60-е место по популярности в мире, а в России — 5-е место. Создан в 1998 году авторами Евгением Голандом и Владимиром Шутовым. С начала 2006 года по 2009 год использовался поиск от «Яндекса». В 2017 году попала под запрет в Украине.

Bing

Bing — поисковая система, разработанная международной корпорацией Microsoft. Была основана в 2009 году. В настоящее время сайт Bing занимает 6-е место в списке самых популярных поисковых сайтов в мире и 31-е место в общем рейтинге по посещаемости среди сайтов. Посещаемость уже менее 200 миллионов в день. Наиболее активно внедряется в смартфоны на ОС Windows. Больше всего заходов из США (32%), Китая (16%) и Германии (4%).

DuckDuckGo

Поисковая система, придающая особое значение обеспечению конфиденциальности. В день обрабатывает около 15 миллионов запросов и около миллиона пользователей. Основана предпринимателем Гэбриелом Вайнбергом. Это уникальная поисковая система, которая не отслеживает ваши действия в сети. Плюсом является русификация – в поисковике имеется отличный перевод на русский язык.

Спутник

Спутник — российская национальная государственная поисковая система и интернет-портал, созданная компанией «Ростелеком». Создан в 2014 году. На данный момент почти не используется рядовыми пользователями Рунета. Но в будущем на него могут перейти госслужащие.

TUT.BY

TUT.BY — белорусская поисковая система. Охватывает 2 миллиона всех интернет-пользователей Беларуси. Был создан в 2000 году журналистом Сергеем Дмитриевым.

Рамблер

Рамблер — популярный сервисный интернет-портал. Ежедневно на главную страницу заходит около полтора миллиона пользователей, а ежемесячно около шести миллионов. Был создан в 1996 году программистом Дмитрием Крюковым. До 23 июня 2011 года являлся одной из поисковых систем Рунета, но перестал существовать, перейдя на поисковый движок компании «Яндекса».

Рейтинг поисковых систем в России в 2020 году

ТОП-10 самых популярных поисковых систем в Рунете, то есть на русскоязычном пространстве России, Беларуси, Украины, Казахстана, стран СНГ, а также Дальнего зарубежья довольно сильно отличается от всемирного рейтинга. В Рунете лидерство делят три гиганта, из которых первые два – абсолютные чемпионы (Гугл и Яндекс). На эти 3 поисковика приходится 99,7% всего трафика с учетом среднесуточного количества переходов пользователей по данным liveinternet.

ТОП-10 поисковых систем в России 2020:

  1. Google — 53.9% (73,5 млн переходов)
  2. Яндекс — 43.1% (58,7 млн переходов)
  3. Search.Mail.ru — 2.7% (3,6 млн переходов)
  4. Rambler — 0.1% (181 тыс. переходов)
  5. Bing — 0.1% (147 тыс. переходов)
  6. Tut.by — 0,01% (12 тыс. переходов)
  7. Yahoo — 0,001% (6,5 тыс. переходов)
  8. Поиск.ru — 0,0001%
  9. Baidu — 0,0001%
  10. Спутник — 0,0001%

ТОП-10 поисковых систем мира 2020

По данным Alexa TOP-500 Global sites мировой рейтинг поисковиков состоит по большей части из таких же участников, что и все предыдущие списки. На первом месте значится Гугл.

Ссылка на основную публикацию
Adblock
detector