Автоматизация индексирования документов

⇐ Предыдущая 1 2 3 4 567 8 9 10 Следующая ⇒

Важным в практическом плане аспектом информационно-поисковых систем являются технологии, принципы и механизмы индексирования документов применительно к той или иной классификационной схеме.

Развитие теории информационного поиска документов, создание первых механизированных информационно-поисковых систем поначалу не предполагали какой-либо автоматизации (механизации) индексирования документов. Индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области ИПС, которые могли осуществлять многоаспектный и глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. Такой подход обусловливал высокие накладные расходы на создание и ведение документальных информационно-поисковых систем, так как требовал наличия в организационном штате высококвалифицированных специалистов-индексаторов. Кроме того, в процесс индексирования при этом вносился человеческий фактор (субъективность поисковых образов одного документа, проиндексированного разными специалистами и т. п.).

Поэтому в теории информационного поиска в 50-х-60-х годах выделилось отдельное направление исследований, связанное с вопросами автоматизации индексирования документов. Идеи и начало этих исследований были инициированы появлением уже упоминавшейся системы унитермов Тауба. Индексирование документов набором однословных дескрипторов-терминов (унитермов), имеющихся в тексте документа, позволило снизить профессиональные требования к индексаторам и, фигурально выражаясь, механистицировать²¹ процесс индексирования.

²¹ Иначе в некотором смысле приблизить к чисто механической работе по выявлению в тексте унитермов.

С применением и все более широким использованием вычислительной техники в информационно-поисковых документальных системах эти подходы трансформировались в задачи и технологии автоматического, т. е. без участия специалистов, индексирования документов.

Огромную роль в исследовании и последующем развитии теории информационного поиска документов сыграли результаты Кренфилдского (I и II) проекта, проводившегося в конце 50-х — начале 60-х годов Английской ассоциацией специальных библиотек и информационных бюро. В ходе экспериментальных исследований эффективности нескольких различных по типу информационно-поисковых систем (система на основе УДК, фасетная система, система унитермов и некоторые их разновидности), проведенных в ходе реализации Кренфилдского проекта, выявились факторы противоречивого влияния некоторых семантических показателей классификационных ИПС (глубина уровней классов при индексировании, объем словарной базы и др.) на полноту и точность информационного поиска. Выявилась общая принципиальная закономерность — при повышении полноты поиска на основе использования тех или иных семантических методов при индексировании происходит снижение точности поиска и наоборот. Еще одним «неожиданным» результатом явилось небольшое отличие в показателях эффективности поиска документов в системах с развитой семантикой индексирования и в системах на основе неконтролируемой лексики.

Последний результат активизировал в дальнейшем внимание к более простым и менее дорогим дескрипторным системам с неконтролируемой или слабоконтролируемой лексикой (унитермы, полнотекстовые системы), в которых на основе посткоординации при обработке запросов удается достичь вполне приемлемых показателей полноты и точности поиска. Этими же обстоятельствами был обусловлен импульс исследованиям технологий автоматического индексирования и уже на новом уровне возродилась идея полной механизации (точнее, уже автоматизации) индексирования документов.

Сформировалось два, хотя и близких, но различных по содержанию подхода автоматическому индексированию. Первый подход основан на использовании словаря ключевых слов (терминов) и применяется в системах на основе информационно-поисковых тезаурусов. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа каждого ключевого термина. На этой основе строится и поддерживается индекс системы, собственно и реализующий поисковое пространство документов.

Применяется два типа образования индекса — прямой и инвертированный (см. рис. 6.8).

Номера (названия) документов Термины

с₁ с₂ с₃ с₄ с₅

α₁ x x

α₂ x x x

α₃ x x

α₄ x x x

Прямой тип организации индекса

Термины Номера (названия) документов

α₁ α₂ α₃ α₄

с₁ x x

с₂ x x

с₃ x x

с₄ x x

с₅ x x

Инвертированный тип организации индекса

Рис. 6. 8. Прямой и инвертирован ный типы организации индекса

Прямой тип индекса строится по схеме «Документ-термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью N×M (N—количество документов, М—количество ключевых терминов). Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме — «Термин — документы». Поисковое пространство соответственно представлено аналогичной матрицей только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

На основе автоматического индексирования документов по ключевым терминам могут решаться также и задачи автоматической классификации документов, т. е. автоматического отнесения документов к тем или иным классификационным рубрикам. Такие задачи особенно актуализировались в связи с интенсивным развитием в 90-х годах глобальных информационных сетей, появлением «электронной» периодики, книг и огромных массивов прочей неструктурированной текстовой информации в компьютерной форме. Автоматическое распознавание в больших объемах текстовой информации документов по определенной тематике позволяет существенно снизить затраты на предварительный отбор информации из внешних источников для пополнения базы документов ИПС по соответствующей предметной области. Принцип решения таких задач аналогичен решению задач информационного оповещения (см. рис. 6.2).

Автоматическое распознавание в больших объемах текстовой информации документов по определенной тематике позволяет существенно снизить затраты на предварительный отбор информации из внешних источников для пополнения базы документов ИПС по соответствующей предметной области. Принцип решения таких задач аналогичен решению задач информационного оповещения (см. рис. 6.2). Для конкретного класса документов (рубрики) строится поисковый образ, который в системах на основе индексирования по ключевым терминам может быть представлен набором определенных терминов или их сочетаний. Поисковые образы документов из внешних источников сравниваются по определенному критерию с поисковым образом рубрики, и на этой основе принимается решение о внесении документов в базу, т. е. об отнесении содержания документа к предметной области ИПС.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования «на учет», т. е. в индекс заносится информация обо всех словах текста документа (отсюда, как уже отмечалось, и название «полнотекстовые»). Более подробно особенности полнотекстового индексирования рассматриваются в следующем параграфе.

⇐ Предыдущая 1 2 3 4 567 8 9 10 Следующая ⇒

Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных