Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Информационно-поисковые системы (ИПС)




Современные ИПС Интернета состоят из нескольких обязательных компонентов:

I - Программного блока, включающего а) spider – программу, скачивающую веб-страницы, б) c rawler – программу, сканирующую, изучающую все скаченные страницы и в) indexer (индексатор) – программу, анализирующую все скаченные страницы, индексирующую их и создающую БД;

II - Массива записей – базы данных, хранящей все сведения, собранные и проанализированные системой;

III - Интерфейса, состоящего из системы выдачи результатов поиска и собственно интерфейса, который пользователь видит на экране.

Традиционно результаты поиска в ИПС Интернета предъявляются пользователю в виде списка документа, упорядоченного (ранжированного) по степени релевантности найденных документов.

Релевантность определяется пониманием запроса поисковой машиной, т.е. алгоритмом поиска информации конкретной поисковой системой, а пертинентность определяется с точки зрения пользователя как соответствие между его ожиданием (информационной потребностью) и результатами поиска. Для вычисления ранга документа разными ИПС используются разные методы и подходы, чаще других следующие методы.

С татистический -основан на количественных характеристиках заданного для поиска ключевого слова: как часто оно встречается, в каком контексте, с усечением или в точно заданной форме. При этом из подсчета убирается информационный шум – стоп-слова, которые не несут смысловой нагрузки (предлоги, союзы и др.).

Локальный метод – основан на определении места, в котором появляется термин: в зависимости от того, где оно встретилось - в заголовке, в начале текста (возможно в аннотации), определяется его «вес».

Оформление текста – выделение, местоположение и др. ИПС вычисляет ранг документа или страницы на основании всех перечисленных методов. Как правило, наиболее релевантные документы содержаться в первых 20 выдачах (списке). Однако, это не строгое правило, и в разных поисковых системах одни и те же релевантные документы могут занять очень отличающиеся по рангу места. Это происходит потому, что каждая поисковая система использует собственные инструменты поиска и ранжирования.

Все системы поиска информации в Интернете располагаются на специально выделенных компьютерах с мощными каналами связи, собственными, фиксированными URL –адресами.

Как уже говорилось выше, средствами поиска в Интернет являются ИПС которые подразделяются на: каталоги, поисковые и метапоисковые системы.

Каталоги (предметные или тематические) – представляют собой систематизированные группы адресов объединенных по тематике. Поисковые каталоги напоминают систематические каталоги обычных библиотек. То, что в первую очередь волнует пользователя – работа, обучение, развлечение, новости и т.д. – вынесено на самый верх информационной страницы. Путем последовательных уточнений можно достаточно быстро дойти до самых нижних ступеней иерархии. Иерархический принцип построения является основой любого каталога.

С помощью каталога можно достаточно быстро найти несколько web-узлов, содержащих информацию по интересующей теме. Если пользователь только начинает интересоваться какой-то темой, каталог может оказаться чрезвычайно полезным – в нем можно найти самые "информационноемкие" и авторитетные web-узлы по данной теме. Однако с помощью каталога поиск информации по узконаправленной тематике может оказаться нецелесообразным.

Преимущества каталогов:

· имеют удобную древовидную структуру, позволяющую быстро найти сайты на заданную тему;

· некоторые каталоги имеет дополнительную алфавитно-предметную рубрикацию (например, mail.ru);

· web-узлы по заданной теме перечисляются в порядке их значимости; возможна сортировка по посещаемости, дате открытия и другим критериям;

· в каталоге чаще всего представлены все наиболее популярные web-узлы по той или иной тематике.

Недостатки:

· субъективность отбора ресурсов и ранжирования результатов поиска, поскольку отбор ведется людьми (человеческий фактор);

· в каталоги попадает ограниченное количество сайтов;

· обновление каталогов происходит очень медленно.

В России популярны каталоги Yahoo=Яхо.ком, Mail.ru= Мэил.ру

 

 

Рис. 52. Стартовая страница каталога Mail.ru

 

Рис. 53. Алфавитный рубрикатор каталога Mail.ru

 

Yahoo - http://www.yahoo.com Yahoo был основан в 1994, и на сегодняшний день это самый старый и наиболее полный каталог интернет-ресурсов. Yahoo имеет около 150 редакторов, для того, чтобы составлять и редактировать содержимое своих каталогов. База данных Yahoo составляет более 1 млн. проиндексированных сайтов. Также, в случае нехватки своей собственной базы данных, Yahoo использует базу данных Google (до июля 2000 года Yahoo пользовался базой данных Inktomi).

Mail.ru – http://www.mail.ru набирающая популярность поисковая система, организованная по типу каталога. Использует результаты поисковой системы Google после некоторой дополнительной обработки. Оптимизация под Mail.ru сводится к оптимизации под Google.

 

Информационно-поисковые системы – действие поисковых систем, или как их еще называют, поисковых машин, заключается в постоянном исследовании всех узлов Интернета, доступных данной системе поиска; их связям и ответвлениям. Прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернета.

Преимущества поисковых машин:

Ø постоянное обновление ссылок;

Ø намного большее количество web-узлов, по которым производится поиск. Крупнейшие поисковые каталоги содержат ссылки на десятки тысяч сайтов, тогда как поисковые системы - на сотни тысяч и миллионы;

Ø высокая скорость поиска.

Недостатки:

Ø очень часто выдается большой объем неравнозначной по ценности информации, велик информационный шум;

Ø сложность использования. Если запрос достаточно сложный нужно уметь использовать инструмент расширенного поиска, в том числе задействовать операторы поиска;

Ø менее наглядная форма представления результатов запроса. Каталог выдает название сайта с его краткой аннотацией и другой полезной информацией, в поисковой системе это менее наглядно.

К наиболее известным поисковым системам относятся такие службы, как англоязычные системы Google = Гугл (www.google.com)[15],; Альта-Виста www.altavista.com, русскоязычные Яндекс www.yandex.ru, Рамблер www.rambler.ru, Апорт www.aport.ru. Характеристика Яндекса и Гугл будет дана ниже.

Следующий тип ИПС - Метапоисковые системы – это надстройки над поисковыми системами и электронными каталогами. Пользователь, вводя поисковое предписание, фактически одновременно обращается к десятку поисковых систем. Метапоисковые системы наиболее эффективны на начальных этапах поиска информации. Они помогают локализовать средства поиска, в которых присутствуют сведения об искомой пользователем информации. Этим гарантируется объективность и полнота полученных результатов. Наиболее значимая русскоязычная метапоисковая система – MetaBot.ru (http://metabot.ru). Метод работы в MetaBot сходен с поисковыми системами, но есть и свои особенности. Когда формулировка запроса окончена, следует отметить форму поиска (русский, мировой поиск, поиск файлов, МРЗ/Video) и нажать на кнопку «Искать», расположенную напротив заполненного поля, чтобы приступить к поиску информации.

Рис. 54. Стартовая страница MetaBot.ru

Результатом поиска будет перечень ссылок, отсортированных по релевантности. Для каждого документа указывается заголовок, краткая аннотация, адрес в Интернет, а также перечень поисковых систем, в которых он был найден.

 

Рис. 55. Форма выдачи результата поиска в MetaBot.ru






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных