Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Классификационные системы поиска документов




Основные направления развития систем классификацион­ного индексирования документов можно проиллюстрировать схемой, приведенной на рис. 6.3.

 

6.3. Системы классификационного индексирования докумен­тов

 

Первоначальные подходы к классификации тематики (пред­мета) документов основывались на формировании списка пред­метных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание (предметы) докумен­та индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили на­звание перечислительной классификации.

Особенностью систем перечислительной классификации является возможность индексирования документов любым ко­личеством предметов (рубрик), отражающих содержание до­кумента. Для осуществления поиска необходимых документов по классификатору (каталогу) определяются коды интересую­щих абонента предметов (рубрик) и далее отбираются из хранилища тс документы, которые проиндексированы соответству­ющими кодами. Для удобства поиска и отбора по каждому до­кументу формируется специальная карточка, на которую Рис.

наносится информация о кодах предметных рубрик документа, а также, как правило, об авторе, названии и др. библиографи­ческих данных документа, его физическом местонахождении, и реферат, который уже на естественном языке в сжатом виде отражает содержание документа. Поиск и отбор документов не­посредственно осуществляется по отбору карточек с необходи­мыми индексными кодами для последующего извлечения из хранилища собственно самих документов.

Перечислительная классификация иллюстрируется на рис. 6.4.

 

Наименование предметной рубрики Код Картотека
Гомогенизация  
Графитизация  
Закалка  
Закалка в закалочной ванне  
Закалка с отпуском  
Нормализация  
Отжиг  
Патентирование  
Светлый отжиг  
Ступенчатая закалка  
Сфероидизация  
Термическая обработка  
Томление  
Черный отжиг  

Рис. 6.4. Индексирование документов на основе перечислитель­ной классификации

 

В приведенном на рис. 6.4 примере документ № 1, в кото­ром речь идет об описании патента по технологии закалки с отпуском, проиндексирован кодами 003 (Закалка), 005 (Закал­ка с отпуском), 008 (Патентирование) и 012 (Термическая об­работка). Документ № 2 с описанием патента по черному от­жигу проиндексирован кодами 007 (Отжиг), 008 (Патентирова­ние), 012 (Термическая обработка) и 014 (Черный отжиг).

Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостат­ком перечислительной классификации. Так, в приведенном при­мере рубрика «Закалка отпуском» является подрубрикой руб­рики «Закалки» и интуитивно ясно, что если документ получил код «Закалки отпуском», то тем самым он автоматически отно­сится и к более широкой рубрике «Закалка».

Приемом, способствующим в определенной степени пре­одолению данного недостатка, является использование в спис­ке рубрик специальных перекрестных ссылок через конструк­цию «см. также». В этом случае в классификаторе вместе с руб­рикой «Закалка» помещается следующая конструкция:

«см. также Закалка в закалочной ванне

Закалка с отпуском»

Перекрестные ссылки ориентируют пользователя на смыс­ловую связь некоторых рубрик, позволяя более адекватно стро­ить выражение своих информационных потребностей.

При систематизированной классификации список пред­метных рубрик строится, как иерархическая структура, в виде перевернутого дерева. Вся предметная область ИПС разбива­ется на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик по принципу «Род-Вид». Таким образом, при систе­матизированной классификации используются уже некоторые семантические основы предметной области, выражаемые в родовидовых отношениях основных категорий, понятий и клас­сов. Представление иерархической классификации производит­ся либо в виде древовидного графа рис. 6.5 а), либо в таблич­ном виде рис. 6.5 б).

 

1.

1.1.

1.1.1.

1.1.2.

1.1.2.1.

1.1.2.2.

1.1.3.

1.2.

2.

2.1.

2.2.

2.3.

2.3.1.

2.3.1.1.

2.3.1.2.

2.3.1.3.

2.3.2.

Рис. 6.5. Древовидная а) и табличная формы б) представления иерархической классификации.

 

Так же, как и при перечислительной классификации, со­держание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся отмечен­ные подрубрики. В результате индексирование и поиск доку­ментов на основе иерархической классификации позволяют бо­лее адекватно отражать содержание документов и обеспечива­ют большую точность поиска. Так, документ из предыдущего примера с описанием патента по технологии закалки с отпус­ком на основе иерархической классификации может быть про­индексирован только рубрикой «Закалка с отпуском», обозна­чение которой включает указание на автоматическое отнесе­ние содержания документа и к более широкой рубрике «Закалка» и к еще более широкой рубрике «Термическая обра­ботка».

Перечислительный и иерархический подходы к классифи­кации впоследствии воплотились в широко используемых в библиотечной практике алфавитно-предметных каталогах, наиболее распространенным из которых в настоящее время яв­ляется универсальная десятичная классификация (УДК). В ос­нове УДК лежит классификационная схема Дьюи, дополнен­ная правилами образования сложных рубрик, а также специ­альными определителями, служащими для более детального описания документов (определители формы и характера доку­мента, определители времени и т. д.). При этом систематизиро­ванная классификация позволяет строить сам каталог (картоте­ку документов) в структурно-иерархическом виде10, что существен­но упрощает выражение пользователем своих информационных потребностей, и, тем самым, ускоряет и повышает точность поис­ка.

10 Каждый класс каталога — ящик с набором карточек документов с соответству­ющим содержанием.

Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность зара­нее перечислить все темы, по которым существуют или могут существовать документы. Выход из таких ситуаций путем до­бавления к классификатору новых рубрик (классов, предметов) не может эффективно решить проблему, так как требует в та­ких случаях переиндексирования всего ранее накопленного документального фонда, что чаще всего нереально по техни­ческим и технологическим аспектам.

Принцип организации классификационного индексирова­ния документов, преодолевающего в определенной степени та­кие ограничения перечислительной и иерархической класси­фикации, был предложен в 30-х годах выдающимся индийс­ким библиотековедом и математиком Ш. Р. Ранганатаном, развит впоследствии в работах английской группы по исследо­ванию классификаций (Classification Research Group) и полу­чил название аналитико-синтетической или иначе фасетной классификации. Идея фасетной классификации состоит в том, что вся предметная область сведений разбивается на ряд исходных групп рубрик (фасет) по организационно-техноло­гическому или семантическому принципу, отражающему спе­цифику предметной области.

Фасеты выступают в роли «кирпичиков», из которых мож­но сложить (сконструировать) любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубри­ки строятся и упорядочиваются по алфавитно-иерархическому принципу. Так, к примеру, предметная область документов по производству технологического оборудования разбивается на четыре фасета11 — «Конфигурации», «Материалы», «Типы раз­рушений» и «Напряжения и нагрузки». На основе соединения подрубрик фасет «конструируются» любая конкретная и узкая тематика — см. рис. 6.6.

11 Примеры на рис. 6.4 и 6.6 заимствованы из источника — Ланкастер Ф.У.Информационно-поисковые системы. — М.: Мир, 1972.

В фасетной классификации, фрагмент которой приведен на рис. 6.6, документ, где речь идет о нагрузках на сжатие трубча­тых конструкций из никелевых сплавов, получит индекс Ac Bgt Lg, который будет отражать достаточно узкую темати­ку, исключая, как и в иерархической классификации, отбор до­кументов с более широкими рубриками.

Основное достоинство фасетной классификации заклю­чается в возможности ограниченным небольшим перечнем фасетных рубрик отразить (сконструировать) огромное количе

ство узких специализированных рубрик и, тем самым, наибо­лее точно и полно проиндексировать содержание документов.

 

Рис. 6.6. Пример фрагмента фасетной классификации

 

Специфической проблемой фасетной классификации явля­ется влияние на эффективность поиска документов порядка следования обозначений рубрик фасет. Психологические особенности поиска таковы, что пользователь в первую очередь сосредоточивает внимание на обозначениях тех подрубрик, ко­торые стоят первыми в цепном списке сконструированной фор­мулы, и если интересующие его в первую очередь сведения от­ражаются рубрикой, стоящей не на первом месте, то он может «с ходу» отвергнуть всю формулу. Для преодоления этого не­достатка используется так называемая пермутация12, при ко­торой для документа приводится список всех возможных вари­антов написания сконструированной фасетной формулы на ос­нове циклической перестановки, например:

Ac Bgt Lg

Lg Ac Bgt

Bgt Lg Ac и т. д.

12 Пермутацня — от слова «перестановка».

Однако такой подход не всегда полностью решает пробле­му, так как комбинаций по перестановкам может быть очень много, что, в свою очередь, утяжеляет и усложняет поиск. Другим подходом является, напротив, жесткая регламента­ция порядка изложения фасет, что в определенной степени ори­ентирует первоначальное внимание пользователя на тех фасе­тах, информация по которым интересует его в большей степе­ни.

Сильной стороной фасетной классификации является бо­лее глубокое, чем при иерархической классификации, исполь­зование семантики. Фасеты, как уже отмечалось, отражают оп­ределенные семантические основы предметной области ИПС, содержащие помимо родовидовых и некоторые прочие семан­тические, в частности ролевые, отношения13. Рядом исследова­телей предлагались универсальные или специализированные фасетные классификации («Индивидуальность», «Материя», «Энергия», «Пространство» и «Время» — Ранганатан; «Пред­мет в целом», «Вид», «Часть», «Материал», «Свойство», «Про­цессы», «Операции», «Факторы» — Миллз). Поэтому, в отли­чие от перечислительной и иерархической классификации, для разработки фасетной классификации предметной области све­дений конкретной ИПС используются те же методологические подходы, что и при разработке информационно-логических схем предметных областей фактографических систем (выделение основных фрагментов-сущностей, анализ отношений между ними и т. д.).

13 Специальные указатели типа «Объект (субъект) действия», «Инструмент (сред­ство) действия».

 






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных