Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Виды информационного свертывания




В результате переработки документ обеспечивается новыми качествами, способствующими его идентификации, поиску и распространению. При свертывании документа получается новый документ. В идеальном случае задача свертывания документа сводиться к созданию ряда произвольных текстов, меньших по объему, чем исходный текст, при сохранении его основного содержания.

Различают шесть основных видов информационного свертывания:

Ø индексирование;

Ø библиографическое свертывание;

Ø аннотирование;

Ø реферирование;

Ø конспектирование;

Ø обзорно-аналитическая деятельность.

Каждый из видов свертывания, в результате которого образуются самостоятельные ряды документов, отличается назначением, уровнем свертывания, применяемыми методами информационного анализа/синтеза. Однако все их объединяет единый принцип, сформулированный в «золотом правиле» коммуникации – эффективное общение возможно лишь на оптимальном уровне свертывания: ниже этого уровня (при излишнем свертывании) сообщение становится непонятным потребителю информации, при превышении этого уровня (излишней развернутости) – скучным, тривиальным, в результате чего степень восприятия сообщения снижается.

Самая высокая степень свернутости документа достигается при индексировании – описании содержания и формы документа средствами того или иного информационного языка.

Индексирование – процесс выражения содержания документа и (или) запроса на информационно поисковом языке (ИПЯ).

Появление первых систем, предназначенных для хранения документальной информации с возможностью ее поиска, т.е. библиотек, привело к необходимости создания особых информационно-поисковых языков, отличных от естественных языков. Эти языки призваны были исключить некоторые особенности естественного языка, которые могли затруднить поиск (например, многозначность, омонимию и т. д.). Создаваемые на базе естественных языков искусственные языки, оказались языками формализованными, но обладающими, как и естественные языки, своими алфавитом, лексикой, грамматикой.

ИПЯ – искусственный формализованный язык, создаваемый на основе естественного языка.

Различают три основных принципа индексирования – классификация (систематизация), предметизация, координатное индексирование. Каждый вид индексирования реализуется с использованием специально разработанного ИПЯ.

Классификационный ИПЯ предназначен для систематизации документов (частей документов) и информационных запросов посред­ством понятий и кодов какой-либо классификационной системы.

Классификационная система — средство формализованного представления содержания документов, данных и информационных запросов посредством кодов или описаний классов логически упо­рядоченного множества понятий.

Код класса ( классификационный индекс) — обозначение класса средствами нотации (индексации) классификационной системы. Базой индексации являются разнообразные символы (цифры, бук­вы. знаки). Индексация может быть однородной или смешанной.

Таким образом, классификация (систематизация)вид индексирования, при котором содержание документа и (или) запроса выражено классификационными индексами в соответствии с правилами какого-либо классификационного ИПЯ (классификационной системы). Процесс классификации (систематизации) представляет собой распределение документов по отраслям знаний. Внутри каждой отрасли происходит детализация по менее крупным, но уже расположенным в логически обоснованной последовательности наукам и областям практической деятельности.

Например: арифметика, алгебра, геометрия – математические науки; ботаника, зоология – биологические. Оба названных класса входят в более крупный блок – естественные науки.

Классификационный принцип индексирования базируется на использовании специально разработанных таблиц классификации, с помощью которых каждому индексируемому документу присваивается тот или иной индекс (или несколько индексов) и обеспечивает возможность организации поиска по иерархическому признаку (от общего к частному, от целого к части, от рода к виду). Поиск по отраслям знания интернационален, так как организуется с помощью понятных всем цифровых обозначений – классификационных индексов – международных средств доступа к документам. К разряду наиболее распространенных в нашей стране иерархических классификационных систем относятся Универсальная десятичная классификация (УДК) и Библиотечно-библиографическая классификация (ББК).

УДК – система классификации информации, широко используется во всем мире для систематизации произведений науки, литературы и искусства, периодической печати, различных видов документов и организации каталогов и картотек. Была создана в начале XX века П. Отле и А. Лафонтеном. За основу была взята Десятичная классификация, разработанная американским библиографом М. Дьюи для Библиотеки Конгресса США. Центральной частью УДК являются основные таблицы, охватывающие весь универсум знаний и построенные по иерархическому принципу деления от общего к частному с использованием числового десятичного кода.

ББК – это классификационный информационно-поисковый язык иерархического типа с элементами фасетной классификации, реализованной в виде комплекса основных и вспомогательных таблиц. Система ББК была разработана в 1958-1968 годах специалистами крупнейших библиотек СССР. БББ<<,,ББББ индекс.

Предметизациявид индексирования, при котором содержание документа и (или) запроса выражено с помощью алфавитного перечня лексических единиц, называемых предметными рубриками.

Предметная рубрика – элемент ИПЯ, представляющий собой краткую формулировку темы на естественном языке.

В качестве предметных рубрик используются слова, словосочетания естественного языка.Предметизационный принцип индексирования обеспечивает возможность организации информационного поиска по алфавитному признаку. Первые встречи человека с методом предметизации происходят еще в раннем детстве в процессе игры с кубиками, на которых изображены буквы и предметы, название которых начинается с этой же буквы: А – арбуз, Б – барабан и т.д. Позднее с этим методом человек встречается, работая со словарями, справочниками, энциклопедиями, в которых словарные статьи расположены в алфавите предметов, выраженных в словах и словосочетаниях.

В основе предметизации как вида индексирования лежат две основные операции – выявление предмета документа и преобразование этого предмета в соответствии с существующими правилами в краткую словесную форму, которая называется предметной рубрикой. На основе предметных рубрик формируются предметные каталоги и алфавитно-предметные указатели, которые представляют собой алфавитный перечень предметных комплексов, состоящих из рубрик и подрубрик, каждая из которых раскрывает рассматриваемый предмет в определенном аспекте. Подрубрики, как правило, перечислены в алфавитном порядке.

Например: Предметная рубрика: Россия

Подрубрики: - Административно-территориальные деления

- Альбомы

- Взаимоотношения – Страна (детализируется)

- Внешняя политика

- География

- Геология

- Государственный строй

- Законы, постановления

- История

- И т.д.

В качестве предметных рубрик используются слова, словосочетания естественного языка.Предметная рубрика всегда является более общей по отношению к понятиям, которые она объединяет.

Например:

– история, философия, социология, политология… - определить предметную рубрику – гуманитарные науки.

– картофель, огурец, репа, томаты, лук, чеснок – овощи.

Координатное индексированиевид индексирования, при котором смысловое содержание документа и (или) запроса многоаспектно выражается множеством ключевых слов.

Ключевое слово – информативное слово (лексическая единица естественного языка, несущая основную смысловую нагрузку), приведенное в стандартной лексикографической форме.

Идею координатного индексирования сформулировал в начале 50-х годов 20 века американский ученый М. Тауб. Согласно его идее, «информационное содержание документа можно отразить в его поисковом образе при помощи перечня несвязанных между собой, взятых из текста, наиболее значимых для этого текста слов, а поиск вести по логическому сочетанию таких значимых слов запроса». Он рекомендовал использовать для индексирования отдельные слова естественного языка – ключевые слова.

В результате координатного индексирования содержание документа представлено набором ключевых слов, взятых из текста или подобранных с помощью методов аналитико-синтетической переработки.

Идея координатного индексирования используется при поиске информации в Интернет – поисковый образ запроса формируется с использование слов естественного языка, несущих основную смысловую нагрузку. Поэтому перед осуществлением поиска в глобальной сети, полезно ознакомиться с содержание (наполнением) темы или понятия по терминологическим, толковым словарям, словарям синонимов. В первом случае для уточнения границ поиска, во втором - расширения. Рекомендуется придерживаться следующих правил формирования ключевых слов: целесообразно ориентироваться, прежде всего, на единичные ключевые слова, сохраняя устойчивые словосочетания в тех случаях, когда их расчленение ведет к потере значения термина, типа «железная дорога», «сельское хозяйство», «управление персоналом» и тд.

Например: фраза «Роман, принадлежащий перу писателя 19 века» содержит 2 ключевых слова – «роман», «19 век».

Рассмотренные три основные разновидности индексирования лежат в основе различных по своему функциональному назначению информационно-поисковых систем: классификация (систематизация) используется при создании систематических каталогов, картотек; предметизация – в предметных каталогах и алфавитно-предметных указателях.

В результате индексирования документу присваивается поисковый образ документа (ПОД), а запросу – поисковый образ запроса (ПОЗ).

ПОД – поисковый образ, выражающий основное смысловое содержание документа. ПОЗ -поисковый образ, выражающий основное смысловое содержание информационного запроса. Релевантность – формальное соответствие ПОД и ПОЗ.

Назначение ПОЗ и ПОД состоит в следующем: в информационно-поисковых системах с целью определения (выделения) релевантных (соответствующих) запросу документов обычно сравниваются, сопоставляются не сами документы с запросами, а их поисковые образы.

Информационно-поисковая система (ИПС) – предназначенная для информационного поиска совокупность информационно-поискового массива, информационно-поискового языка, правил его использования, критерия выдачи и технических средств. Примером широко распространенный ИПС является электронный каталог.

 






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных