Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Механизмы поиска документов в полнотекстовых ИПС




В полнотекстовых ИПС поиск документов осуществляет­ся по индексу системы через дескрипторный язык запросов с логическими операциями над словоформами, а также через дру­гие механизмы использования поисковых образов документов и запросов.

Принцип и механизм поиска документов по индексу сис­темы очевидны. Пользователь должен указать путем перечис­ления и ввода в систему тех словоформ, набор которых выра­жает его информационные потребности. К примеру, если пользователю необходимо найти документы, содержание кото­рых касается экспорта редкоземельных элементов, то запрос к системе может выглядеть следующим образом «экспорт ред­коземельные элементы». В ответ система по индексу опреде­лит номера (группу) документов, где присутствует слово «экс­порт», группу документов, где присутствует слово «редкоземель­ные», и группу документов, где присутствует слово «элементы». Ясно, что полнота и точность такого поиска будут оставлять желать много лучшего, так как в первой группе документов могут присутствовать в том числе и документы, в которых речь идет об экспорте чего-то другого, например леса, или об экс­порте вообще. Во второй группе документов могут присутство­вать документы, в которых речь идет, в том числе, о добыче или производстве редкоземельных элементов, но не об их экс­порте. В третьей группе документов могут присутствовать и документы, в которых речь идет, скажем, о преступных элемен­тах, что, конечно же, совершенно может не соответствовать благим информационным потребностям пользователя.

Слабая эффективность подобного способа выражения ин­формационных потребностей преодолевается некоторыми ре ляционными дополнениями такого чисто дескрипторного языка запросов на основе посткоординации, только не понятий, а словоформ, В язык запросов вводятся логические операции от­ношений дескрипторов запроса — операция логического «И», операция логического «ИЛИ», операция логического отрица­ния «НЕ».

Если словоформы запроса из приведенного выше примера объединить операцией логического «И», то система отберет только те документы, в которых одновременно присутствуют словоформы «Экспорт», «Редкоземельные», «Элементы». Не­смотря на возможность ложной координации словоформ, такое усовершенствование чисто дескрипторного характера языка запросов приводит к существенному повышению эффективности поиска и предоставляет пользователю более развитые возможности по выражению своих информационных потребностей.

Следует также добавить, что подобные принципы построения языка запросов повышают требования к квалификации пользователя, в частности по пониманию и оперированию ло­гическими операциями. Вместе с тем, как показывает практи­ка, большинство так называемых «неподготовленных» пользова­телей способно самостоятельно осваивать и применять подоб­ные, в общем-то, интуитивно понятные языковые конструкции.

На практике язык запросов полнотекстовой ИПС дополняется также операциями работы с датами и в ряде систем возможностями координатного анализа текста документов. Ра­нее неявно предполагалось, что единичным объектом поиска словоформ и соответственно областью действия логических операторов является документ, а не более мелкие его составляющие—абзацы, предложения. В системах с координатным анализом область действия логических операторов можно сужать вплоть до предложения. Примером таких возможностей является запрос на отыскание таких документов, где словоформы «экспорт», «редкоземельные», «элементы» присутствуют одно­временно (операция «И») внутри одного предложения. Координатный анализ позволяет еще более повысить эффективность поиска релевантных документов, но требует более детального индексирования. Для словоформ словаря системы в индексе должны при осуществлении координатного анализа фиксироваться не только номера документов, но номера абзацев, номе­ра предложений и номера соответствующих словоформ в порядке следования слов в соответствующих предложениях.

Отличительной особенностью поиска документов по ин­дексу является практическая независимость времени (скорости) поиска от объема базы документов, особенно если используется статический словарь. Для любого запроса, независимо от текущего объема базы документов, выполняется приблизительно одинаковое количество операций, связанных с просмот­ром строк индексного массива и определением совокупности номеров релевантных документов. Следующей стадией выполнения запроса является собственно извлечение из базы (файла документов) самих документов. Для этого обычно в полнотек­стовой ИПС создается специальный массив (см. рис. 6.9) адре­сов начала расположения документов.

В системах с динамически поддерживаемыми словарями время поиска при увеличении объема базы документов сначала также увеличивается (т. к. пропорционально увеличивается объем словаря и, соответственно, объем индекса), а затем так же, как в системах со статическими словарями, перестает зави­сеть от объема базы документов. Это объясняется тем, что с некоторой границы объема базы документов словарь системы уже набирает практически полный набор словоформ, присущих конкретной предметной области, и вероятность появления в новом документе слова, которого еще не было в словаре систе­мы, резко падает.

Как уже отмечалось, повышению эффективности поиска способствует морфологический разбор документов и запросов. Помимо существенного уменьшения объема словаря и, соот­ветственно, индекса системы, морфологический разбор повы­шает и эффективность поиска, так как не реагирует на несуще­ственные с точки зрения смыслового содержания грамматичес­кие различия искомого текста документов и запросов. Если вернуться опять-таки к примеру с запросом «экспорт редкозе­мельные элементы», то система с морфологическим разбором отберет не только те документы, в которых встречается бук­вальное сочетание словоформ «экспорт», «редкоземельные», «элементы», но и такие фразы, как «К вопросу об экспорте редкоземельными элементами», «Проблемы экспорта редкоземель­ных элементов» и т. п.

Морфологический разбор в принципе дает возможность пользователю формировать запросы на естественном языке. Система при обработке запроса удаляет из него все «стоп - слова», остальные словоформы нормализует и, оставляя пользова­теля в полной иллюзии о том, что она действительно его «по­нимает», выполняет таким образом выхолощенный запрос. Некоторое время тому назад наблюдалось сильное увлечение таким подходом, от которого, к счастью, вскоре разработчики полнотекстовых ИПС отошли. Использование якобы естествен­ного языка запросов на самом деле не позволяет применять ло­гические операторы и другие развитые возможности, связан­ные с координатным анализом местонахождения и контекстно­го окружения искомых слов, терминов, сочетаний и т. д.

Еще одной важной характеристикой поиска документов по индексу, в том числе с учетом логических операций посткоор­динации и морфологического разбора, является то, что такой поиск основывается на упрощенном детерминированном под­ходе. Иначе говоря, критерием поиска является вхождение или невхождение того или иного дескриптора-словоформы запро­са в поисковый образ документа без учета общей «похожести» ПОД и ПОЗ. Масса остальных дескрипторов поискового обра­за документа не рассматривается. Поэтому в развитых полно­текстовых ИПС реализуются более тонкие и сложные алгорит­мы поиска, основанные на сравнении ПОД и ПОЗ в целом по тем или иным критериям похожести, близости.

Такой подход позволяет предоставлять пользователям бо­лее эффективные возможности выражения своих информаци­онных потребностей без их явной формализации и структури­зации по словоформам. В частности, пользователь может по­ставить ИПС задачу поиска документов, «похожих» по содержанию на какой-либо другой (известный ему релевант­ный, точнее пертинентный) документ или фрагмент докумен­та. В этом случае не только ПОД, но и ПОЗ представляют со­бой полномасштабные двоичные векторы, часть дескрипторов которых будет совпадать, а часть не совпадать, и возникнет не­обходимость в использовании более тонких критериев опреде­ления близости документов и запроса. Кроме того, становится возможным определение количественных мер (показателей) близости, т. е. релевантности документов и запросов.






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных