ТОР 5 статей: Методические подходы к анализу финансового состояния предприятия Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века Характеристика шлифовальных кругов и ее маркировка Служебные части речи. Предлог. Союз. Частицы КАТЕГОРИИ:
|
Информационно-поисковые тезаурусы
Особую роль в развитии информационно-поисковых систем сыграли работы Мортимера Тауба, разработавшего в 1951 году систему унитермов. В системе Тауба содержание документа индексируется совокупностью терминов в виде однословных обозначений — унитермов. Например, документ по теории информационного поиска может быть проиндексирован двумя унитермами — «Информационный», «Поиск». В качестве унитермов чаще всего выступают элементы словаря ключевых терминов по определенной предметной области. В системе Тауба первоначально не предполагалось какой-либо связи или отношений между унитермами и, следовательно, ее можно отнести к чисто дескрипторным системам. Вместе с тем сразу же проявились и такие специфические проблемы дескрипторных систем, как ложная координация понятий. Явление ложной координации заключается в такой координации понятий (классов, терминов), которые хотя по отдельности и присутствуют в содержании документа, но комбинируются по смыслу с другими понятиями (терминами, классами). Так, например, в содержании документа, в котором речь идет об информационном обеспечении поисковых бригад при ликвидации чрезвычайных происшествий и последствий стихийных бедствий, также присутствуют в числе прочих унитермы — «Информационный» и «Поиск», и, следовательно, он совершенно неправильно может быть выдан на запрос по теории информационного поиска. Другой проблемой в системах на основе унитермов являются синонимичность и омонимичность17 некоторых терминов, что приводит к неоднозначности индексирования документов. Для преодоления ложной координации и других проблем стали вводить составные термины, указатели связи и ролей терминов («род — вид», «средство действия» и т. п.), заново открывая в некотором смысле предметную иерархическую рубрикацию со связями, и внося тем самым в чисто дескрипторную систему элементы семантики. Так появилось отдельное направление информационно-поисковых систем, получившее название тезаурусов.
Тезаурус (с греч. «хранилище», «запас», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова-дескрипторы определенной предметной области, указаны синонимичные им ключевые слова, установлены способы устранения синонимии, омонимии, полисемии, определены родовидовые и ассоциативные связи дескрипторов18.
В более общем плане в тезаурусе выделяют классификационную схему и алфавитный перечень дескрипторов - ключевых слов. Классификационная схема определяет систематизацию дескрипторов по уровням иерархии исходя из «родовидовых» или ролевых отношений. Алфавитный перечень содержит словарный фонд дескрипторов для индексирования документов. Внешним отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации со связями и ролевыми отношениями является то, что в тезаурусах помимо классификационной схемы присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов, понятий и т. д., но не определены и нет самих ключевых терминов, им соответствующих. Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности и автоматизации индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе информационно-поисковых тезаурусов ПОД представлен набором дескрипторов (ключевых терминов). Однако в процессе индексирования документов учитываются семантические (родовидовые, ролевые, синонимичные, омонимичные, полисемичные и ассоциативные) отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию ПОД и повышает эффективность поиска документов (по точности, полноте и шуму). Разработка тезаурусов и их внедрение в информационно-поисковые системы интенсивно осуществлялись в 60-е и 70-е годы. При этом в соответствии с тематическим профилем выделились многоотраслевые, отраслевые и узкотематические тезаурусы. Первым многоотраслевым тезаурусом за рубежом явился «Тезаурус технических и научных терминов», вышедший в декабре 1967 г. в США. В 1972 г. под редакцией Ю. И. Шемакина был разработан первый отечественный многоотраслевой «Тезаурус научно-технических терминов». В семидесятые годы тезаурусы были разработаны практически для всех отраслей деятельности, а также создано большое количество узкотематических специализированных тезаурусов. На основе практики разработки и использования информационно-поисковых тезаурусов были также разработаны специальные представления тезаурусов, закрепленные в нашей стране в соответствующих ГОСТах19. Согласно ГОСТ 18383-73 форма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору (термину) в следующем виде20: РЕФЕРАТ с резюме в СВЕРТЫВАНИЕИНФОРМАЦИИ н РЕФЕРАТАВТОРСКИЙ РЕФЕРАТГРАФИЧЕСКИЙ РЕФЕРАТИНФОРМАТИВНЫЙ РЕФЕРАТ «ТЕЛЕГРАФНОГО СТИЛЯ» РЕФЕРАТУКАЗАТЕЛЬНЫЙ РЕФЕРИРОВАНИЕ а АННОТАЦИЯ где в качестве буквенных обозначений выступают следующие: с — термины-синонимы; в — термины, подчиняющие заглавный термин, т. е. выше по иерархии; н — термины, подчиненные заглавному, т. е. ниже по иерархии; а — термины, ассоциированные с заглавным термином.
Еще одной особенностью тезаурусов является применяемая на практике возможность расширения словарной базы новыми ключевыми терминами, появляющимися при накоплении документов в ходе эксплуатации системы. В этом плане различают базовые и рабочие тезаурусы. Базовые тезаурусы выступают в качестве нормативных пособий по лексике в той или иной отрасли знаний или предметной области. Рабочие тезаурусы в стартовом виде строятся на основе базовых тезаурусов и дополняются в процессе индексирования и анализа появления в документах новых или специфичных терминов (так называемые профессионализмы, иногда жаргонные термины и т. д.). В результате возникает еще один специфический компонент эксплуатации соответствующих ИПС, называемый ведением тезауруса. Не нашли, что искали? Воспользуйтесь поиском:
|