Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Методы количественной оценки релевантности документов




Количественные показатели релевантности — процент со­ответствия содержимого документа запросу, ранжирование (са­мый релевантный документ, менее релевантный, еще менее ре­левантный) и т. п., позволяют существенно увеличить конеч­ную эффективность использования документальной системы, предоставляя пользователю возможность после отбора доку­ментов сразу сосредоточиваться на наиболее важных из них.

Определение количественных показателей релевантности документов в полнотекстовых ИПС основывается на тех или иных подходах по вычислению мер близости двоичных векторов документов и запросов.

Документ D k представляется в системе двоичным вектором:

где dk,i = 1, если словоформа под номером i присутствует в k- м документе, и 0, если отсутствует.

Аналогичным образом представляются поисковые образы запроса Z пользователя:

где zk = 1, если словоформа под номером k присутствует в зап­росе, и zk =0, если отсутствует.

Критерии релевантности подразделяются по моделям представления и сопоставления документов и запросов, к ко­торым относятся:

• булева модель;

• модель нечетких множеств;

• пространственно-векторная модель;

• вероятностно-статистическая модель.

В качестве показателя (меры) релевантности документов используется так называемое значение статуса выборки (retrieval status value — RSV). В булевой модели критерием ре­левантности является полное совпадение векторов ПОД и ПОЗ. Соответственно RSV в булевой модели определяется как логи­ческая сумма операций попарного логического произведения соответствующих элементов векторов ПОД и ПОЗ:

где k —1,..., N, N — количество документов в базе, L — количе­ство словоформ в словаре, & — логическая операция «И».

Значением RSV b булевой модели может быть единица (ре­левантный документ) или ноль (нерелевантный документ). По сути, булева модель не дает количественной меры релевантно­сти и ничем не отличается от простого поиска по индексу сис­темы с логической операцией «И» словоформ-дескрипторов.

В системах на основе модели нечетких множеств значе­ния компонент векторов ПОД и ПОЗ могут принимать не толь­ко два альтернативных значения — 1 и 0 (термин принадлежит документу или не принадлежит), но и такое значение, как «не­полная, частичная принадлежность». Соответственно в моде­ли нечетких множеств переопределены и логические операции, чтобы учитывать возможность неполной принадлежности по­добных логических элементов анализируемым множествам (по­исковым образам запросов). Вычисление значений статуса вы­борки RSV производится аналогичным булевой модели обра­зом с учетом переопределения операции & («И»).

Несмотря на некоторое расширение выразительных воз­можностей представления и сопоставления документов и зап­росов, модель нечетких множеств, как и булева модель, не дает по-настоящему количественной меры релевантности, хотя дос­тоинством обеих моделей является их простота и невысокие вычислительные затраты на реализацию.

В системах на основе пространственно-векторных моделей поисковое пространство представлено многомерным про­странством, каждое измерение которого соответствует слово­форме (термину) из словаря системы. Например, если в слова­ре всего три словоформы, то поисковое пространство является трехмерным, и т. д. В исходном варианте пространство имеет евклидову метрику, т. е. представляется ортогональным бази­сом нормированных векторов, отражающих соответствующие словоформы словаря системы. Поисковый образ документа и запроса в поисковом пространстве представляется многомер­ным вектором единичной длины, координаты которого отра­жают наличие или отсутствие в документе соответствующих словоформ. В случае трехмерной размерности пространствен­но-векторная модель иллюстрируется на рис. 6.10.

Показатель релевантности (по аналогии с булевой моде­лью будем обозначать его RSV) для пространственно-вектор­ной модели в простейшем случае определяется скалярным про­изведением векторов ПОД и ПОЗ:

 

Рис. 6.10. Иллюстрация пространственно-векторной модели представления и сопоставления документов и запросов

 

Таким образом, определяемый показатель релевантности RSV может изменяться в диапазоне от 0 до N (N — число слово­форм или терминов в словаре системы) и действительно коли­чественно отражает степень релевантности документов. Так, в приведенном на рис. 6.10 примере значение RSV1 = 2, а значе­ние RSV2 = 1. Для выдачи пользователю конкретного набора ре­левантных документов информационно-поисковые системы ограничиваются выдачей документов, показатель релевантно­сти которых запросу RSV превышает некоторый заранее уста­новленный порог.

Следует также заметить, что при таком подходе абсолют­ные значения показателя релевантности зависят не только соб­ственно от самой степени релевантности, но и от количества N словоформ в словаре системы. Поэтому на практике применя­ют нормализованный вариант RSV, определяя его с учетом ор­тогональности и ортонормированности поискового простран­ства как косинус угла между вектором ПОД и вектором ПОЗ:

В этом случае RSV принимает значения от 0 до 1 и не зави­сит от объема словаря системы.

Определенным недостатком такого подхода к расчету ко­личественной меры релевантности является нечувствитель­ность к степени соответствия отсутствующих словоформ (терминов) в ПОД и ПОЗ. Интуитивно понятно, что чем ближе содержание документа и запроса, тем меньше в документе дол­жно быть словоформ (терминов), которых нет в запросе. Если, к примеру, в словаре системы всего 6 элементов и имеется два документа 1(1,1,0,1,0,0) и 2(1,1,1,1,1,1), то для запроса (1,1,0,0,0,0) значение RSV для обоих документов будет равно 2 (33%), хотя интуитивно понятно, что более близким по содержанию явля­ется первый документ, а второй документ, скорее всего, затра­гивает более широкую тематику, не обязательно интересующую пользователя.

Такой чувствительностью обладает показатель реле­вантности, определяемый следующим образом:

 

если dk,,i =0 и наоборот.

Если вернуться к предыдущему примеру с документами Д1(1,1,0,1,0,0),Д2(1,1,1,1,1,1) и запросом 3(1,1,0,0,0,0), то RSV для первого документа будет равным 5 (83%), а для второго документа 2(33%), что выглядит, конечно же, «справедливее».

 

Более развитым, но и более сложным подходом к определению мер близости ПОД и ПОЗ является учет разной значимости словоформ (терминов) и их зависимости друг от друга. В пространственно-векторной модели это означает отход от ортогональности и ортонормированности базисных векторов поискового пространства. В этом случае скалярное произведение векторов ПОД и ПОЗ более гибко и осмысленно отражает близость соответствующих векторов и, тем самым, смысловое содержание документов и запросов.

 

В простейшем варианте подобного расширения пространственно-векторной модели различные словоформы в глобальном словаре системы дополняются специальными весовыми коэффициентами, отражающими важность соответствующей словоформы (термина) для конкретной предметной области. Соответственно поисковые векторы документов и запросов в этом случае превращаются из двоичных векторов в обычные, т. е. с любыми значениями (а не только 0 или 1) своих компонент. Иногда такой подход называют «окрашиванием»24 глобального словаря системы. Следует также заметить, что в случае перехода от глобального словаря (отражающего все слова и словоформы) к словарю терминов происходит вырождение полнотекстового характера ИПС и она переходит в категорию систем на основе тезаурусов.

24 В смысле окрашивания по определенной предметной области.

На практике применяются также и другие подходы, расширяющие возможности двоичной (ортогональной и ортонормированной) пространственно-векторной модели. Такие подходы базируются на вероятностно-статистической модели. При этом можно выделить две разновидности вероятностно-статистического подхода:

· придание весовых коэффициентов словоформам (терминам) глобального словаря вне контекста конкретного документа;

· придание весовых коэффициентов компонентам векторов ПОД по итогам индексирования конкретного документа (с учетом контекста конкретного документа).

Первый подход основан на анализе итогов индексирования совокупности документов, уже вошедших в базу (хранилище) ИПС. Совокупность словоформ (терминов), обязательно присутствующих в любом документе базы, считается наиболее адекватно отражающей тематику предметной области ИПС, и соответствующие словоформы (термины предметной области) получают наибольший вес, наибольшую значимость в словаре системы, по которому производится индексирование документов. В качестве числовых характеристик весов значимости терминов используются те или иные статистические параметры., такие, например, как относительная или абсолютная частота вхождения термина в документы базы системы. Разновидностью такого подхода является учет количества вхождений в совокупность документов базы тех или иных словоформ или терминов.

Более сложные варианты развития первого подхода основываются на технологиях «обучения» и настраивания ИПС на конкретные предметные области. Традиционный способ обучения основывается на использовании обучающей выборки до­кументов. Такая выборка формируется либо на основе отбора текстов экспертами в конкретной предметной области, либо путем использования документов по соответствующим рубрикам каталогов библиотек и т. п. Далее осуществляется исследо­вание обучающей выборки на предмет статистических показателей вхождений в документы выборки тех или иных словоформ или терминов. Результатом обучения является «окрашенность» (различные весовые коэффициенты словоформ) словаря системы.

Другой подход основывается на апостериорном выделении в поисковом пространстве «сгущении» векторов ПОД и последующем анализе совокупности и количественных данных вхож­дения в такие группы документов тех или иных словоформ (терминов). Предполагается, что такие группы соответствуют осо­бенностям тематики конкретной предметной области, и словоформы, в них входящие, получают наибольшие весовые коэффициенты на основе тех или иных статистических параметров. Еще одним вариантом является учет дискриминируемости (различимости) термина. Если при внесении в текст одного из двух близких по векторам ПОД документов какого-либо термина происходит резкое «расщепление» этих векторов, то такой термин считается более информативным и значимым, и его коэффициент важности, соответственно, должен быть выше.

При втором подходе к реализации вероятностно-статисти­ческой модели различия в весах значимости словоформ или терминов проявляются по результатам индексирования кон­кретного документа. В простейшем варианте анализируется, сколько раз тот или иной термин входит в данный документ. Словоформам или терминам, имеющим наибольшее количество вхождений, присваиваются более высокие веса в векторе ПОД. В векторах запросов (ПОЗ) все словоформы или термины считаются равнозначными, но их различные веса в векторах ПОД обеспечивают большую релевантность тех документов, где соответствующие словоформы или термины встречаются наиболее часто.

Отдельной ветвью развития второго подхода является использование обратной, интерактивной связи с пользователем. В этом случае информационно-поисковая система стремится настроиться не столько на определенную предметную область, сколько на специфические особенности тематики информационных потребностей конкретного пользователя. В общем виде для каждого пользователя ИПС создает свое поисковое пространство с индивидуальным окрашиванием компонентов векторов ПОД. Такое индивидуальное окрашивание производится путем запрашивания системой у пользователя его оценки релевантности выданных на каждый текущий запрос документов. Уточнив у пользователя, какие на его взгляд документы наиболее релевантны, система анализирует особенности и статистические параметры вхождения тех или иных словоформ (терминов) в эти наиболее релевантные документы, переопределяет и уточняет их весовые коэффициенты. Тем самым в последующих запросах более адекватно и глубже учитываются информационные потребности конкретного пользователя.

Существуют и другие разновидности вероятностно-статистических подходов к расширению пространственно-векторной модели поиска документов, но, к сожалению, из-за отсутствия в документации на коммерческие ИПС соответствующей информации по деталям механизмов поиска и релевантности документов оценить и проанализировать их эффективность довольно затруднительно.

В целом же информационно-поисковые полнотекстовые системы являются одним из наиболее интенсивно развивающихся направлений документальных информационных систем, существенно продвигая теорию и практику информационного поиска документов и развивая методы анализа и автоматизированной обработки текстовой неструктурированной информации.

 






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных