Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Формирование связей документов в гипертекстовых ИПС




Еще одним важным элементом в структуре гипертексто­вых ИПС является подсистема формирования связей докумен­тов (см. рис. 6.12). Как и в случае систем на основе индексиро­вания документов, существует два подхода к формированию связей документов в гипертекстовых ИПС — ручной и автоматизированный.

В первом подходе смысловые связи содержания документа с другими документами системы определяются самим пользо­вателем (автором документа, администратором и т. п.). Такой подход имеет свои преимущества, так как пользователь уста­навливает смысловые ассоциации нового документа с другими документами базы на основе многоаспектного многокритери­ального анализа содержания документа, что не может быть в полной мере воспроизведено никакими автоматизированными формальными или эвристическими алгоритмами.

Вместе с тем у ручного подхода имеется и ряд существен­ных недостатков. Человеческие возможности по скорости и объему смыслового анализа текстовых документов ограниче­ны и не могут во многих случаях обеспечить приемлемые вре­менные или организационные расходы на обработку и установ­ление связей при больших потоках поступления документов в систему. В качестве примера можно привести гипертекстовую систему, агрегирующую в реальном масштабе времени поток новостных сообщений информационных агентств и другие тому подобные ситуации.

Однако даже если временных или иных ограничений на ввод документов в гипертекстовую ИПС нет, то другой пробле­мой является ограниченность человеческой памяти пользова­теля (администратора) по содержанию введенных ранее в сис­тему документов. Иначе говоря, пользователь, устанавливая гипертекстовые ассоциации нового документа, помимо смысло­вого содержания вводимого документа, одновременно должен представлять и помнить смысловое содержание всех других ранее введенных в систему документов, что, конечно же, без дополнительных классификационных или иных приемов в боль­шинстве случаев нереально.

Кроме того, ручной подход, как и в случае индексирования документов, требует определенной квалификации пользовате­ля-анализатора в соответствующей предметной области ИПС, что приводит к дополнительным проблемам.

Тем не менее в некоторых областях ручной способ уста­новления гиперссылок сохраняет свое значение или является единственно возможным. Это, прежде всего, касается среды WWW в сети Интернет. Гипертекстовые ссылки публикуемых на Web-узлах документов на другие документы Сети пользова­тели определяют сами29, исходя из собственных представлений об ассоциации своей страницы с другими публикациями и уз­лами WWW. Вместе с тем такой подход не может по-настояще­му полно и адекватно ассоциировать содержание публикуемой страницы с ресурсами Сети, так как ни один пользователь или Web-мастер, конечно же, не может знать и представлять всех ресурсов Сети. Отчасти эта проблема решается через так назы­ваемые поисковые машины, размещающиеся на известных всем пользователям узлах WWW и представляющие собой, как пра­вило, сочетание информационно-поисковых классификацион­ных каталогов и полнотекстовых ИПС, индексирующих все пуб­ликации в WWW. В этом случае гипертекстовые ассоциатив­ные цепочки образуются через отсылку на узел поисковой машины, а от него к релевантным документам, располагающим­ся на других узлах сети.

29 Совместно с так называемыми Web-мастерами и Web-дизайнерами.

Автоматизированный подход к формированию и уста­новлению гипертекстовых связей применяется в развитых замкнутых гипертекстовых ИПС. В основе автоматизации фор­мирования гиперссылок лежит использование принципов поиска релевантных по смыслу документов, применяемых в системах на основе индексирования.

На практике применяются две основные технологии автоматизированного установления ассоциативных гипертекстовых связей:

• технология поисковых образов документов на основе техники ключевых слов (терминов);

• технология полнотекстового индексирования и поиска.

Использование технологии ключевых слов имеет несколько разновидностей. Один из вариантов предусматривает предварительное создание для предметной области гипертекстовой ИПС взвешенного словаря ключевых терминов. При вводе нового документа в системе производится его индексирование по словарю ключевых терминов и формируется ПОД. В простейшем случае в качестве ПОД используется суммарный вес терминов, присутствующих в тексте документа. Далее поисковый образ нового документа сравнивается с поисковыми образами ранее введенных документов и при превышении определенного порога «сходства» устанавливаются гипертекстовые связи с соответствующими документами.

В другом варианте используется предварительно созданная классификационная рубрикация предметной области. С каждой рубрикой связывается опять-таки предварительно созданный набор ключевых терминов или их сочетаний. На основе входного индексирования производится соотнесение вводимого документа с той или иной рубрикой и на этой основе устанавливаются гипертекстовые связи с соответствующей группой документов.

Полнотекстовые технологии по сути аналогичны технике ключевых слов с учетом только более широкого текстового базиса индексирования и использования тех или иных критериев установления близости поисковых образов документов. В некоторых системах практикуются полуавтоматизированные технологии на основе полнотекстового поиска. В таких системах пользователь-анализатор выделяет из текста документа наиболее характерные по его содержанию фрагменты, которые используются в качестве запроса-образца для формирования ПОЗ и полнотекстового поиска релевантных документов, с которыми и устанавливаются гипертекстовые связи.

Иногда применяются и более тонкие полу автоматизированные подходы. Пользователь, анализируя содержание вводимо­го документа, может через технику ключевых терминов, или через классификационную рубрикацию, или через возможности полнотекстового поиска выбрать группу предварительно сходных (ассоциированных) по смыслу документов. Далее просматривая документы этой группы, он отмечает действительно релевантные из них, определяя и устанавливая тем самым соответствующие связи (гиперссылки) вводимого документа.

Таким образом, в технологиях автоматизированного формирования гипертекстовых связей документов сливаются все подходы, наработанные в сфере документальных информационных систем для формализации смыслового содержания текстовых документов.

 

Вопросы и упражнения

1. Приведите основные отличия фактографических и документальных информационных систем по форме представления данных и способам удовлетворения информационных потребностей пользователей.

2. В чем отличие понятий пертинентность и релевантность?

3. Поясните, что отражают поисковые образы документов и запросов.

4. Что является результатом индексирования документов в документальных ИПС?

5. Объясните основные различия дескрипторных и семантических ИПЯ.

6. Дайте определения показателей эффективности документальных ИПС и охарактеризуйте соотношение между полнотой и точностью документального информационного поиска.

7. Объясните суть и дайте сравнительную характеристику перечислительной и систематизированной классификации документов.

8. По фрагменту фасетной классификации, приведенной на рис. 6.6, постройте индекс документа, в котором идет речь о коррозионной усталости трубчатых растяжных конструкций из хромоникелевых сплавов.

9. По фрагменту фасетной классификации, приведенной на рис. 6.6, поясните, о чем может идти речь в документах, индекс которых выражается следующими фасетными формулами:
Ac Bс Kg Lg
Ac Bсd Kgb Lm
Ac Bgt Ki Lg

10. Для документальной базы текстовых сообщений о планируемых или состоявшихся научных мероприятиях (конференции, семинары, симпозиумы) по тематикам, связанным с радиолокацией (радионавигация, загоризонтная локация, синтез и обработка радиолокационных сигналов, антенно-фидерная техника, устройства отображения радиолокационной информации и т. д.), организуемых академическими, отраслевыми НИИ или учебными заведениями, составьте примерную схему фасетной классификации и на ее основе проиндексируйте следующее сообщение:
21.08.2000г. Институтом математики и кибернетики Северосибирского отделения РАН в ­ г. Северск проводится научно-практическая конференция «Теория и практика фазокодоманипулировагшых (ФКМ) сигналов радиолокационных устройств».

11. Для чего применяется координация понятий (терминов) в документальных ИПС на основе индексирования? В чем суть и отличия понятий пред- и посткоординации?

12. В рамках фасетной классификации, приведенной на рис. 6.6, поясните следующие фасетные формулы с использованием координации понятий, отражающие содержание документов или запросов пользователя:

a. (AC) ∩ BGT ∩ ((KI U KL) ∩ KP) ∩ LG

b. AC ∩ BC ∩ (KP ∩ (KPF)) ∩ (LB U LD U LG)

13. В рамках фасетной классификации, приведенной на рис. 6.6, составьте фасетную формулу с использованием предкоординации понятий для документа, в котором идет речь о разрушениях нетрубчатых конструкций из хромистых или хромоникелевых сталей от коррозионной усталости при сжатиях или ударах.

14. Какие отличия имеет тезаурус от словаря ключевых слов определенной предметной области?

15. В чем заключается ведение тезауруса?

16. Почему ИПС на основе тезаурусов обладают более высокой эффективностью документального информационного поиска по сравнению с системами, построенными на основе перечислительной классификации содержания документов по словарю ключе­вых слов?

17. Приведите сравнительную характеристику преимуществ и недостатков ручного и автомати­зиро­ванного индексирования документов.

18. Что представляет собой индекс в документальных ИПС, какова его организация и смысл элементов?

19. В каком смысле индекс полнотекстовых систем отражает полный текст документов, агрегированных в ИПС?

20. По информационно-технологической структуре полнотекстовых ИПС, приведенной на рис. 6.9, выделите элементы, которые в совокупности составляют программные средства, характеризуемые термином «полнотекстовые СУБД».

21. По информационно-технологической структуре полнотекстовых ИПС, приведенной на рис. 6.9, выделите элементы, которые в совокупности можно назвать полнотекстовой базой документов.

22. Поясните, является ли обязательным наличие отдельно организованного и локально сосредоточенного хранилища документов в полнотекстовых ИПС.

23. Что происходит с индексом и, в частности, с поисковыми образами ранее накопленных (проиндексированных) документов в полнотекстовых ИПС с динамическим глобальным словарем при наличии во вновь поступающем па учет в систему документе новых словоформ?

24. В чем существо нормализации глобального словаря в полнотекстовых ИПС и что дает нормализация?

25. Используется ли координация понятий в полнотекстовых ИПС? Если да, то в какой форме?

26. С использованием логических операторов «И»(3), «ИЛИ»(И), «НЕ»(Ш) постройте запросы на дескрипторном ИПЯ, в котором дескрипторами могут выступать любые слова (словоформы), по поиску документов, в которых идет речь о:

· методике информационного поиска в фактографических или документальных ИПС, исключая семантически-навигационные системы;

· моделях разграничения доступа в компьютерных системах, построенных в идеологии «Клиент-сервер», исключая системы с серверами приложений;

· оптимизаторах запросов в реляционных СУБД, которые не используют апостериорный анализ статистики данных.

27. В чем преимущества и, может быть, недостатки полнотекстовых ИПС с координатным анализом текста документа при индексировании?

28. Объясните феномен практической независимости скорости поиска документов в полнотекстовых ИПС от объема хранилища документов.

29. Что и как в действительности «понимает» полнотекстовая ИПС с морфологическим разбором и нормализованным глобальным словарем в запросах пользователя, формулируемых на естественном
языке?

30. Как определяется количественная мера документов при простран­ственно-векторной модели представления ПОД и ПОЗ?

31. Какие вероятностно-статистические расширения пространственно-векторной модели ПОД и ПОЗ позволяют повысить релевантность поиска документов в полнотекстовых ИПС? Что означает термин «окрашивание» глобального словаря?

32. Чем гипертекст отличается от просто текста?

33. В чем сходство и отличие чтения и восприятия традиционных текстовых (бумажных) документов и работы пользователя в гипертекстовой ИПС?

34. Для чего нужна визуализация цепочек «пройденных» документов в гипертекстовых ИПС, каким способом обычно она решается и какие проблемы при этом возникают?

35. Какие математические объекты описывают модель организации данных в гипертекстовых ИПС?

36. Какие проблемы восприятия гипертекста может решить дифференциация типов гиперссылок? Ответ поясните на примере модели организации данных в гипертекстовых справочных системах Microsoft Windows.

37. В чем заключаются ограничения целостности в гипертекстовой модели данных и какие проблемы в их контроле и поддержании могут возникать в распределенных открытых гипертекстовых ИПС (на примере WWW)

 






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных