Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






ИПС: типы, организация поиска, примеры соврем. поиск. сис-м




Автоматизированная ИПС – это функционирующая на основе ЭВМ и др. техн. ср-в комплекс, обеспечивающий сбор, хранение, обновление и обработку иноф-ии в целях поддержки к-л вида деят-ти. Осн. достоинство ИПС закл. в обеспечении хранения больших объемов данных и быстрого поиска нужной инф-ии среди имеющихся данных.

Абонент обращается к ИПС с информационным запросом – т-том, отражающим информационную потребность дан. абонента, напр., его желание найти список аптек, в которых можно купить нужное лекарство. Поиск инф-ии ведется в поисковом массиве, кот. формируется (и по мере необходимости обновляется) разработчиками/ администраторами сис-мы. Эл-ты поискового массива вводятся в ИПС на ЕЯ (или близком к нему), а затем обычно подвергаются индексированию, т.е. переводу на формальный информационно-поисковый язык (ИПЯ).

Индексирование - выражение центральной темы или предмета к.-л. т-та или описание к-л. о-та на ИПЯ.

По характеру поискового массива и выдаваемой инф-ии ИПС подразделяют на документальные и фактографические.

Документальная ИПС предназначена для отыскания док-тов (статей, книг, отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимую инф-ю. Поисковый массив такой ИПС сост. из поисковых образов документов (т.е. т-тов на ИПЯ, поставленных в однозначное соответствие док-ту и отражающих его признаки, необходимые для поиска его по запросу.) или из самих док-тов. В ответ на предъявляемый инф. запрос ИПС выдает некот. мн-во док-тов (или адреса их хранения), содержащих искомую инф-ю.

Фактографическая ИПС обеспечивает выдачу непосредственно фактических сведений, затребованных потребителем в инф. запросе. Поисковый массив сост. из фактографических записей, т.е. из описаний фактов, извлеченных из документов и представленных на некот. формальном яз.

Сущ-ют и смешанные ИПС, содерж., как док-ты, так и факты.

В наст. вр. фактографические ИПС (как специальный класс поисковых систем) практически не разрабатываются, выполняемые ими действия реализуются с помощью штатных СУБД.

Наиболее популяр. моделью организации поискового образа док-та явл. «векторная модель» -каждому док-ту приписывается список терминов, наиболее адекватно, отражающих его смысл т.е док-ту приписывается «вектор» = числу терминов. При булевой векторной модели эл-т вектора =1 или 0 в зав-ти от наличия/отсутствия термина в док-те.

В более сложных моделях термины «взвешиваются», т.е. «вес термина» - соотв-е дан. термина док-ту

Присвоение док-ту набора ключ. слов или кодов, определяющих его содержание. наз индексированием. Длля пополнения списка ключ. слов служит робот-индексировщик, кот. просматривает сеть, находит нов. инф. рес-сы, приписывает им термины и помещает в БД индекса. Индекс в б-ве сис-м – сис-ма связ. /у со. файлов, кот. нацелена на быстрый поиск данных по запросу. Возможны 2 способа индексир-я: свободное, когда непоср-но из т-та док-та извлекаются ключ. слова без учета всех их словоформ и отношений м/у ними; и контролируемое, когда в поисковый образ док-та вкл-ся только те слова, кот. зафиксированы в информационно-поисковом тезаурусе, где указаны их синонимические, морфологические и ассоциативные отношения.

Тезаурус -специально организованный нормативный словарь лекс. ед-ц ИПЯ и ЕЯ. Лекс. ед.ми ИПЯ явл. дескрипторы. Дескриптор ставится в однозначное соответствие группе ключ. слов ЕЯ, отобранных из т-та опр. предмет. обл-ти. Напр., в кач-ве дескриптора м. б. выбрано любое (предпочтительно наиболее часто используемое или короткое) ключ. слово/ словосоч-е / же цифровой код. Многозначному слову ЕЯ соответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям - 1 дескриптор. Тезаурус учитывает семантич. связи м/у словами: антонимы, синонимы, гипонимы, гиперонимы, ассоциации.

Тезаурус и грамматика составляют ИПЯ. Грамматика содержит правила образования производных ед-ц яз. (семантических кодов, синтагм, предложений) и регламентирует использование ср-в обозначения синтаксических отношений (напр., указателей связи).

В рассмотренной выше сказочной информационной службе знакомств тезаурус должен описывать всевозможные кач-ва и хар-ки, встречающиеся в письмах клиентов, правила их классификации. Грамматика и тезаурус д. б. составлены т.о., чтобы сис-ма м. понимать, что задает, скажем, число, указанное в запросе: рост, возраст или количество зубов (это м. опр-ся по ключ. слову - единице измерения), уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесь помогут словосочетания хотел бы познакомиться, должен соответствовать).

На основании тезауруса и правил грамматики формируются поисковые образы док-та и запроса (поисковое предписание). Поисковое предписание – т-т на ИПЯ, содержащий признаки док-тов, затребованных польз-лем в запросе.

Релевантность

Целью ИПС является выдача док-тов, релевантных (семантически соответствующих) запросу. Различают рел-ть содержательную и формальную. Рел-ть содержательная трактуется как соответствие док-та информ. запросу, определяемое неформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев и выберет кандидатов в женихи, отвечающих ее требованиям), а рел-ть формальная - как соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в ИПС критерия выдачи.

Критерий выдачи - формальное правило, совокупность признаков, по кот. определяется степень формальной рел-ти поискового образа док-та и поискового предписания и принимается решение о выдаче/невыдаче некот. док-та в ответ на инф. запрос.

Недостатки:

При поиске сущ. 2 проблемы: нерелевантность поиска (информац. шум) и неполнота поиска. Причиной инф. шума м.б. неправильное ключ. слово, многозначность слова, нечеткое формулирование комм. цели поиска. Неполнота поиска: сис-ма не м. найти нужную инф-ю, хотя она и имеется в БД. Одна из причин этого недостатка – синонимия.

Компоненты ИПС

client – программа просмотра конкр. информ. рес-са (напр.,Netscape Navigator) обеспеч.просмотр док-тов WWW, Gopher user interface – интерфейс польз-ля, сп-б общения польз-ля с поиск. аппаратом сис-мы, т.е. с сис-мой формулировки запросов – просмотра рез-тов search engine – поисковая машина транслирует запрос польз-ля в формальн. запрос сис-мы, ищет ссылки на инф. рес-сы сети и выдает рез-ты польз-лю index database – индекс – осн. массив данных ИПС. Ищет адреса инф. рес-сов. Устроен чтобы поиск происходил max быстро и при этом м. б. бы оценить ценность рес-са. queries – запроса польз-ля, кот. сохр. в его личной БД index robot – робот-индексировщик служит для сканиров-я Интернет и поддержики индекса в актуальном сост-ии. Это осн. источ-к инф-ии о состоянии инф. рес-сов. WWW sites – инф. рес-сы сети.

Примеры ИПС AltaVista: наиболее продвинутый яз. запроса. Кроме AND, OR, NOT есть NEAR – контекстный поиск. В запросе м. указать в какой части док-та польз-ль хочет видеть ключ. слово (в ссылке, заголовке…). Разрешает поис по ключ. фразам, имеет больш. сл-рь этих фраз. Это сис-ма с расширенным булевым поиском. Yahoo – ИПЯ прост – слова вводят ч/з пробел и они соед-ся AND, OR. Не выдается степень соотв-я док-та запросу, а т-ко подчеркиваются слова из запроса, кот. встретились в док-те. Не производит нормализации т-та. Она относ-ся к классу наиболее прстых традиц. сис-м с огранич. воз-ми поиска. Lycos – в простом запросе ввод. прдл-е на ЕЯ, сис-ма нормализует запрос. Почти сразу выдается инф-я о чиле док-тов, а потом - ссылки. указ. мера близости к запросу, число слов из запроса, кот. попали в док-т. В расшир поиске – булевый поиск. Wais – строит булевые запросы, считает формальн. релевант-ть по разл. мерам близости, взвешивает термины, корректирует запросы по релев-ти, усекает термины, разбивает док-ты на поля.






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных