ТОР 5 статей: Методические подходы к анализу финансового состояния предприятия Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века Характеристика шлифовальных кругов и ее маркировка Служебные части речи. Предлог. Союз. Частицы КАТЕГОРИИ:
|
Информационно-поисковые системы (ИПС)Современные ИПС Интернета состоят из нескольких обязательных компонентов: I - Программного блока, включающего а) spider – программу, скачивающую веб-страницы, б) c rawler – программу, сканирующую, изучающую все скаченные страницы и в) indexer (индексатор) – программу, анализирующую все скаченные страницы, индексирующую их и создающую БД; II - Массива записей – базы данных, хранящей все сведения, собранные и проанализированные системой; III - Интерфейса, состоящего из системы выдачи результатов поиска и собственно интерфейса, который пользователь видит на экране. Традиционно результаты поиска в ИПС Интернета предъявляются пользователю в виде списка документа, упорядоченного (ранжированного) по степени релевантности найденных документов. Релевантность определяется пониманием запроса поисковой машиной, т.е. алгоритмом поиска информации конкретной поисковой системой, а пертинентность определяется с точки зрения пользователя как соответствие между его ожиданием (информационной потребностью) и результатами поиска. Для вычисления ранга документа разными ИПС используются разные методы и подходы, чаще других следующие методы. С татистический -основан на количественных характеристиках заданного для поиска ключевого слова: как часто оно встречается, в каком контексте, с усечением или в точно заданной форме. При этом из подсчета убирается информационный шум – стоп-слова, которые не несут смысловой нагрузки (предлоги, союзы и др.). Локальный метод – основан на определении места, в котором появляется термин: в зависимости от того, где оно встретилось - в заголовке, в начале текста (возможно в аннотации), определяется его «вес». Оформление текста – выделение, местоположение и др. ИПС вычисляет ранг документа или страницы на основании всех перечисленных методов. Как правило, наиболее релевантные документы содержаться в первых 20 выдачах (списке). Однако, это не строгое правило, и в разных поисковых системах одни и те же релевантные документы могут занять очень отличающиеся по рангу места. Это происходит потому, что каждая поисковая система использует собственные инструменты поиска и ранжирования. Все системы поиска информации в Интернете располагаются на специально выделенных компьютерах с мощными каналами связи, собственными, фиксированными URL –адресами. Как уже говорилось выше, средствами поиска в Интернет являются ИПС которые подразделяются на: каталоги, поисковые и метапоисковые системы. Каталоги (предметные или тематические) – представляют собой систематизированные группы адресов объединенных по тематике. Поисковые каталоги напоминают систематические каталоги обычных библиотек. То, что в первую очередь волнует пользователя – работа, обучение, развлечение, новости и т.д. – вынесено на самый верх информационной страницы. Путем последовательных уточнений можно достаточно быстро дойти до самых нижних ступеней иерархии. Иерархический принцип построения является основой любого каталога. С помощью каталога можно достаточно быстро найти несколько web-узлов, содержащих информацию по интересующей теме. Если пользователь только начинает интересоваться какой-то темой, каталог может оказаться чрезвычайно полезным – в нем можно найти самые "информационноемкие" и авторитетные web-узлы по данной теме. Однако с помощью каталога поиск информации по узконаправленной тематике может оказаться нецелесообразным. Преимущества каталогов: · имеют удобную древовидную структуру, позволяющую быстро найти сайты на заданную тему; · некоторые каталоги имеет дополнительную алфавитно-предметную рубрикацию (например, mail.ru); · web-узлы по заданной теме перечисляются в порядке их значимости; возможна сортировка по посещаемости, дате открытия и другим критериям; · в каталоге чаще всего представлены все наиболее популярные web-узлы по той или иной тематике. Недостатки: · субъективность отбора ресурсов и ранжирования результатов поиска, поскольку отбор ведется людьми (человеческий фактор); · в каталоги попадает ограниченное количество сайтов; · обновление каталогов происходит очень медленно. В России популярны каталоги Yahoo=Яхо.ком, Mail.ru= Мэил.ру
Рис. 52. Стартовая страница каталога Mail.ru
Рис. 53. Алфавитный рубрикатор каталога Mail.ru
Yahoo - http://www.yahoo.com Yahoo был основан в 1994, и на сегодняшний день это самый старый и наиболее полный каталог интернет-ресурсов. Yahoo имеет около 150 редакторов, для того, чтобы составлять и редактировать содержимое своих каталогов. База данных Yahoo составляет более 1 млн. проиндексированных сайтов. Также, в случае нехватки своей собственной базы данных, Yahoo использует базу данных Google (до июля 2000 года Yahoo пользовался базой данных Inktomi). Mail.ru – http://www.mail.ru набирающая популярность поисковая система, организованная по типу каталога. Использует результаты поисковой системы Google после некоторой дополнительной обработки. Оптимизация под Mail.ru сводится к оптимизации под Google.
Информационно-поисковые системы – действие поисковых систем, или как их еще называют, поисковых машин, заключается в постоянном исследовании всех узлов Интернета, доступных данной системе поиска; их связям и ответвлениям. Прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернета. Преимущества поисковых машин: Ø постоянное обновление ссылок; Ø намного большее количество web-узлов, по которым производится поиск. Крупнейшие поисковые каталоги содержат ссылки на десятки тысяч сайтов, тогда как поисковые системы - на сотни тысяч и миллионы; Ø высокая скорость поиска. Недостатки: Ø очень часто выдается большой объем неравнозначной по ценности информации, велик информационный шум; Ø сложность использования. Если запрос достаточно сложный нужно уметь использовать инструмент расширенного поиска, в том числе задействовать операторы поиска; Ø менее наглядная форма представления результатов запроса. Каталог выдает название сайта с его краткой аннотацией и другой полезной информацией, в поисковой системе это менее наглядно. К наиболее известным поисковым системам относятся такие службы, как англоязычные системы Google = Гугл (www.google.com)[15],; Альта-Виста www.altavista.com, русскоязычные Яндекс www.yandex.ru, Рамблер www.rambler.ru, Апорт www.aport.ru. Характеристика Яндекса и Гугл будет дана ниже. Следующий тип ИПС - Метапоисковые системы – это надстройки над поисковыми системами и электронными каталогами. Пользователь, вводя поисковое предписание, фактически одновременно обращается к десятку поисковых систем. Метапоисковые системы наиболее эффективны на начальных этапах поиска информации. Они помогают локализовать средства поиска, в которых присутствуют сведения об искомой пользователем информации. Этим гарантируется объективность и полнота полученных результатов. Наиболее значимая русскоязычная метапоисковая система – MetaBot.ru (http://metabot.ru). Метод работы в MetaBot сходен с поисковыми системами, но есть и свои особенности. Когда формулировка запроса окончена, следует отметить форму поиска (русский, мировой поиск, поиск файлов, МРЗ/Video) и нажать на кнопку «Искать», расположенную напротив заполненного поля, чтобы приступить к поиску информации. Рис. 54. Стартовая страница MetaBot.ru Результатом поиска будет перечень ссылок, отсортированных по релевантности. Для каждого документа указывается заголовок, краткая аннотация, адрес в Интернет, а также перечень поисковых систем, в которых он был найден.
Рис. 55. Форма выдачи результата поиска в MetaBot.ru Не нашли, что искали? Воспользуйтесь поиском:
|