Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Автоматизация индексирования документов




Важным в практическом плане аспектом информационно-поисковых систем являются технологии, принципы и механиз­мы индексирования документов применительно к той или иной классификационной схеме.

Развитие теории информационного поиска документов, создание первых механизированных информационно-поисковых систем поначалу не предполагали какой-либо автоматизации (механизации) индексирования документов. Индексирова­ние осуществлялось специально подготовленными специалистами-экспертами в предметной области ИПС, которые могли осуществлять многоаспектный и глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. Такой подход обусловливал высокие накладные расходы на создание и ведение документальных информационно-поисковых систем, так как требовал наличия в организационном штате высоко­квалифицированных специалистов-индексаторов. Кроме того, в процесс индексирования при этом вносился человеческий фак­тор (субъективность поисковых образов одного документа, проиндексированного разными специалистами и т. п.).

Поэтому в теории информационного поиска в 50-х-60-х годах выделилось отдельное направление исследований, связан­ное с вопросами автоматизации индексирования документов. Идеи и начало этих исследований были инициированы появле­нием уже упоминавшейся системы унитермов Тауба. Индекси­рование документов набором однословных дескрипторов-тер­минов (унитермов), имеющихся в тексте документа, позволило снизить профессиональные требования к индексаторам и, фигурально выражаясь, механистицировать21 процесс индексирования.

21 Иначе в некотором смысле приблизить к чисто механической работе по выяв­лению в тексте унитермов.

С применением и все более широким использованием вы­числительной техники в информационно-поисковых докумен­тальных системах эти подходы трансформировались в задачи и технологии автоматического, т. е. без участия специалис­тов, индексирования документов.

Огромную роль в исследовании и последующем развитии теории информационного поиска документов сыграли резуль­таты Кренфилдского (I и II) проекта, проводившегося в конце 50-х — начале 60-х годов Английской ассоциацией специаль­ных библиотек и информационных бюро. В ходе эксперимен­тальных исследований эффективности нескольких различных по типу информационно-поисковых систем (система на основе УДК, фасетная система, система унитермов и некоторые их раз­новидности), проведенных в ходе реализации Кренфилдского проекта, выявились факторы противоречивого влияния неко­торых семантических показателей классификационных ИПС (глубина уровней классов при индексировании, объем словар­ной базы и др.) на полноту и точность информационного поис­ка. Выявилась общая принципиальная закономерность — при повышении полноты поиска на основе использования тех или иных семантических методов при индексировании происходит снижение точности поиска и наоборот. Еще одним «неожидан­ным» результатом явилось небольшое отличие в показателях эффективности поиска документов в системах с развитой се­мантикой индексирования и в системах на основе неконтролиру­емой лексики.

Последний результат активизировал в дальнейшем внима­ние к более простым и менее дорогим дескрипторным систе­мам с неконтролируемой или слабоконтролируемой лексикой (унитермы, полнотекстовые системы), в которых на основе по­сткоординации при обработке запросов удается достичь впол­не приемлемых показателей полноты и точности поиска. Эти­ми же обстоятельствами был обусловлен импульс исследова­ниям технологий автоматического индексирования и уже на новом уровне возродилась идея полной механизации (точнее, уже автоматизации) индексирования документов.

Сформировалось два, хотя и близких, но различных по со­держанию подхода автоматическому индексированию. Первый подход основан на использовании словаря ключевых слов (тер­минов) и применяется в системах на основе информационно-поисковых тезаурусов. Индексирование в таких системах осу­ществляется путем последовательного автоматического поис­ка в тексте документа каждого ключевого термина. На этой основе строится и поддерживается индекс системы, собственно и реализующий поисковое пространство документов.

Применяется два типа образования индекса — прямой и инвертированный (см. рис. 6.8).

 


 

Номера (названия) документов Термины
  с1 с2 с3 с4 с5
α1   x   x  
α2 x x x    
α3     x   x
α4 x     x x
Прямой тип организации индекса

 

Термины Номера (названия) документов
  α1 α2 α3 α4
с1   x   x
с2 x x    
с3   x x  
с4 x     x
с5     x x
Инвертированный тип организации индекса

 

Рис. 6. 8. Прямой и инвертирован ­ ный типы организации индекса

 

Прямой тип индекса строится по схеме «Документ-тер­мины». Поисковое пространство в этом случае представлено в виде матрицы размерностью N×M (N—количество докумен­тов, М—количество ключевых терминов). Строки этой матри­цы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схе­ме — «Термин — документы». Поисковое пространство соот­ветственно представлено аналогичной матрицей только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

На основе автоматического индексирования документов по ключевым терминам могут решаться также и задачи автомати­ческой классификации документов, т. е. автоматического от­несения документов к тем или иным классификационным рубрикам. Такие задачи особенно актуализировались в связи с интенсивным развитием в 90-х годах глобальных информаци­онных сетей, появлением «электронной» периодики, книг и ог­ромных массивов прочей неструктурированной текстовой ин­формации в компьютерной форме. Автоматическое распознавание в больших объемах текстовой информации документов по определенной тематике позволяет существенно снизить зат­раты на предварительный отбор информации из внешних источников для пополнения базы документов ИПС по соответ­ствующей предметной области. Принцип решения таких задач аналогичен решению задач информационного оповещения (см. рис. 6.2).

 


Автоматическое распознавание в больших объемах текстовой информации документов по определенной тематике позволяет существенно снизить зат­раты на предварительный отбор информации из внешних источников для пополнения базы документов ИПС по соответ­ствующей предметной области. Принцип решения таких задач аналогичен решению задач информационного оповещения (см. рис. 6.2). Для конкретного класса документов (рубрики) стро­ится поисковый образ, который в системах на основе индекси­рования по ключевым терминам может быть представлен на­бором определенных терминов или их сочетаний. Поисковые образы документов из внешних источников сравниваются по определенному критерию с поисковым образом рубрики, и на этой основе принимается решение о внесении документов в базу, т. е. об отнесении содержания документа к предметной области ИПС.

Второй подход к автоматическому индексированию приме­няется в полнотекстовых системах. В процессе индексирова­ния «на учет», т. е. в индекс заносится информация обо всех словах текста документа (отсюда, как уже отмечалось, и назва­ние «полнотекстовые»). Более подробно особенности полно­текстового индексирования рассматриваются в следующем па­раграфе.






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных