Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Информационно-поисковые тезаурусы




 

Особую роль в развитии информационно-поисковых сис­тем сыграли работы Мортимера Тауба, разработавшего в 1951 году систему унитермов. В системе Тауба содержание до­кумента индексируется совокупностью терминов в виде одно­словных обозначенийунитермов. Например, документ по теории информационного поиска может быть проиндексиро­ван двумя унитермами — «Информационный», «Поиск». В ка­честве унитермов чаще всего выступают элементы словаря клю­чевых терминов по определенной предметной области.

В системе Тауба первоначально не предполагалось какой-либо связи или отношений между унитермами и, следователь­но, ее можно отнести к чисто дескрипторным системам. Вмес­те с тем сразу же проявились и такие специфические проблемы дескрипторных систем, как ложная координация понятий. Явление ложной координации заключается в такой координации понятий (классов, терминов), которые хотя по отдельности и присутствуют в содержании документа, но комбинируются по смыслу с другими понятиями (терминами, классами). Так, например, в содержании документа, в котором речь идет об информационном обеспечении поисковых бригад при ликвида­ции чрезвычайных происшествий и последствий стихийных бедствий, также присутствуют в числе прочих унитермы — «Информационный» и «Поиск», и, следовательно, он совершенно неправильно может быть выдан на запрос по теории информационного поиска.

Другой проблемой в системах на основе унитермов являются синонимичность и омонимичность17 некоторых терминов, что приводит к неоднозначности индексирования докумен­тов. Для преодоления ложной координации и других проблем стали вводить составные термины, указатели связи и ролей терминов («род — вид», «средство действия» и т. п.), заново открывая в некотором смысле предметную иерархическую руб­рикацию со связями, и внося тем самым в чисто дескрипторную систему элементы семантики. Так появилось отдельное на­правление информационно-поисковых систем, получившее на­звание тезаурусов.

 

17 Синонимы — одинаковые или близкие по смыслу слова, омонимы — слова, одинаковые в написании и звучании, но имеющие разный смысл — ключ (в замке), ключ (источник воды).

Тезаурус (с греч. «хранилище», «запас», «сокровищница») в узком смысле представляет собой специальный словарь-спра­вочник, в котором перечислены ключевые слова-дескрипторы определенной предметной области, указаны синонимичные им ключевые слова, установлены способы устранения синонимии, омонимии, полисемии, определены родовидовые и ассоциа­тивные связи дескрипторов18.

18 Строгое определение информационно-поискового тезауруса (нормативный словарь дескрипторного ИПЯ с зафиксированнымив нем парадигматическими отношениями лексических единиц) приведено в ГОСТ 7.74-96 СИБИД. Информационно-поисковые языки.— М,: Изд-во стандартов, 1997.

В более общем плане в тезаурусе выделяют классификационную схему и алфавитный перечень дескрипторов - ключевых слов. Классификационная схема определяет систематизацию дескрипторов по уровням иерархии исходя из «родовидовых» или ролевых отношений. Алфавитный перечень содержит словарный фонд дескрипторов для индексирования документов.

Внешним отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации со связями и ролевыми отношениями является то, что в тезаурусах помимо классификационной схемы присутствуют сами ключевые слова и дескрипторы, объе­диняемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов, понятий и т. д., но не определены и нет самих ключевых терми­нов, им соответствующих.

Главная идея информационно-поисковых тезаурусов зак­лючается в повышении эффективности и автоматизации ин­дексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе информационно-поиско­вых тезаурусов ПОД представлен набором дескрипторов (клю­чевых терминов). Однако в процессе индексирования докумен­тов учитываются семантические (родовидовые, ролевые, си­нонимичные, омонимичные, полисемичные и ассоциативные) отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию ПОД и повышает эф­фективность поиска документов (по точности, полноте и шуму).

Разработка тезаурусов и их внедрение в информационно-поисковые системы интенсивно осуществлялись в 60-е и 70-е годы. При этом в соответствии с тематическим профилем вы­делились многоотраслевые, отраслевые и узкотематические тезаурусы. Первым многоотраслевым тезаурусом за рубежом явился «Тезаурус технических и научных терминов», вышед­ший в декабре 1967 г. в США. В 1972 г. под редакцией Ю. И. Шемакина был разработан первый отечественный многоотрасле­вой «Тезаурус научно-технических терминов». В семидесятые годы тезаурусы были разработаны практически для всех отрас­лей деятельности, а также создано большое количество узкоте­матических специализированных тезаурусов.

На основе практики разработки и использования информа­ционно-поисковых тезаурусов были также разработаны специ­альные представления тезаурусов, закрепленные в нашей стра­не в соответствующих ГОСТах19. Согласно ГОСТ 18383-73 фор­ма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору (термину) в следующем виде20:

РЕФЕРАТ

с резюме

в СВЕРТЫВАНИЕИНФОРМАЦИИ

н РЕФЕРАТАВТОРСКИЙ РЕФЕРАТГРАФИЧЕСКИЙ РЕФЕРАТИНФОРМАТИВНЫЙ РЕФЕРАТ «ТЕЛЕГРАФНОГО СТИЛЯ» РЕФЕРАТУКАЗАТЕЛЬНЫЙ РЕФЕРИРОВАНИЕ

а АННОТАЦИЯ

где в качестве буквенных обозначений выступают следующие:

с — термины-синонимы;

в — термины, подчиняющие заглавный термин, т. е. выше по иерархии;

н — термины, подчиненные заглавному, т. е. ниже по иерархии;

а — термины, ассоциированные с заглавным термином.

 

19 ГОСТ 18383-73. Тезаурус информационно-поисковый. Общие положения. Форма представления. 20 Пример позаимствован из работы: Соколов А.В.Информационно-поисковые системы: Учеб. пособие для вузов/Под ред. А. Б. Рябова. — М.: Радио и связь, 1981.

Еще одной особенностью тезаурусов является применяе­мая на практике возможность расширения словарной базы но­выми ключевыми терминами, появляющимися при накоплении документов в ходе эксплуатации системы. В этом плане раз­личают базовые и рабочие тезаурусы. Базовые тезаурусы выс­тупают в качестве нормативных пособий по лексике в той или иной отрасли знаний или предметной области. Рабочие тезау­русы в стартовом виде строятся на основе базовых тезаурусов и дополняются в процессе индексирования и анализа появле­ния в документах новых или специфичных терминов (так на­зываемые профессионализмы, иногда жаргонные термины и т. д.). В результате возникает еще один специфический компонент эксплуатации соответствующих ИПС, называемый ведением тезауруса.






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных