Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Модель организации данных в гипертекстовых ИПС




К сожалению, несмотря на интенсивное развитие и всеоб­щее распространение в последнее десятилетие гипертекстовых технологий, к настоящему времени еще не проработана полно­стью формализованная модель организации гипертекстовых данных, которая бы обеспечивала формализованные процеду­ры синтеза (разработки, проектирования) и анализа (использо­вания) гипертекстовых ИПС. Причина этого заключается, как и в целом для всех типов документальных систем, в пока не­преодолимых сложностях в формализованном описании смыс­ла текстов на естественном языке.

Тем не менее, в научной литературе имеется ряд работ, по­священных формальным моделям гипертекстовых структур26. Среди них можно выделить теорию паттернов, разработан­ную американским математиком У. Гренандером и развитую впоследствии для гипертекста Л. В. Шуткиным, тензорную модель А.В. Нестерова и подход логико-смыслового л юделировапия, представленный в работах М. М. Субботина, а также ряд других подходов.

26 Смотри, например, Купер И. Р.Обзор отечественных гипертекстовых технологий // Теория и практика общественно-научной информации. — Вып. 13. — 1997.

Первые два подхода основываются на формализации от­дельных текстов специальными математическими конструкци­ями. В теории паттернов текст рассматривается как сложно­организованная совокупность отдельных тем, каждая из которых может выражаться фрагментом текста с минимальным разме­ром в виде одной строки. Для описания гипертекста в теории паттернов вводятся также специальные объекты — кнопки (аналог гиперссылки) и связи с идентификаторами и дополни­тельными параметрами (тип, направленность и т. д.). В резуль­тате размеченный гипертекст можно описывать теми или ины­ми паттерновыми конфигурациями. Вместе с тем теория пат­тернов не содержит средств синтеза обычного текста в гипертекст.

Тензорный подход основывается на идеологии ранее рас­сматривающейся фасетной классификации, которая позволяет формализовано описать смысловую структуру текста в виде тензора27, а гипертекстовую структуру в виде ансамбля тензо­ров. Таким образом, сильной стороной тензорного подхода яв­ляется возможность создания формализованных процедур ана­лиза исходных текстов для создания гипертекстовых структур.

27 В упрощенном виде тензор можно трактовать как математический объект, за­вершающий иерархически усложняющуюся цепочку — «скаляр — вектор—тензор», т. е. как многокомпонентный объект в многомерном пространстве с заданным линей­ным преобразованием его компонент при переходе от одной системы координат к другой.

Наиболее развитым в практическом плане является подход, основанный на логико-смысловом моделировании человечес­кого мышления, позволяющий на основе семантической бли­зости текстовых фрагментов связывать их в цельный осмыс­ленный текст — семантическую сеть. Математическим аппа­ратом для описания структуры гипертекста выступает теория графов. Критерием для связывания текстов или их фрагментов в семантическую сеть является возможность установления меж­ду ними логических связок типа «есть», «является условием», «является причиной» и т. д. Построение на основе анализа тек­ста таких связываний образует формализованные «высказыва­ния», комбинируя которые можно получать определенные вы­воды или, как говорят, новые знания, или подтверждать истин­ность (доказывать) составных высказываний. В наиболее развитом виде такой подход реализуется в так называемых ба­зах знаний, составляющих основу особой ветви информацион­ных систем, называемых экспертными системами.

Таким образом, при логико-смысловом моделировании структура гипертекста представляет (точнее, должна представ­лять) систему семантических связей между когнитивными эле­ментами (понятиями, высказываниями) определенной предмет­ной области. В результате сильной стороной такого подхода является возможность автоматизации создания (разметки) ги­пертекстовых структур на основе распознавания и соотнесения документов или их фрагментов к тем или иным узлам семанти­ческой сети.

Если вернуться к структуре гипертекстовой ИПС (рис. 6.12), то ее центральным элементом является гипертекстовая база документов. По принципу формирования и управления гипер­текстовыми базами их можно разделить на открытые (физи­чески распределенные, или децентрализованные) и замкнутые (локально сосредоточенные).

В замкнутых базах гипертекстовые документы находятся в едином локально-сосредоточенном и централизованно управ­ляемом хранилище (файле или группе файлов со специальным форматом). Такое хранилище образует замкнутую семанти­ческую сеть документов, гипертекстовые связи которых не вы­ходят за пределы хранилища. Соответственно внесение в базу новых документов или удаление документов производится не­посредственно в месте расположения такой локальной базы.

В открытых базах гипертекстовые документы не образу­ют единое локально размещенное хранилище, а располагаются автономно в любых элементах (узлах) информационной сре­ды. При этом информационная среда может ограничиваться файловой структурой одного компьютера (диски, каталоги, под­каталоги), локальной или глобальной информационной сетью. В открытых базах семантическая гипертекстовая сеть докумен­тов не управляется из одного центра (узла), а совместно стро­ится и поддерживается всеми пользователями, работающими в узлах информационной среды (сети). Несмотря на полную де­централизацию создания и функционирования, при определен­ных соглашениях (протоколах) об установлении и поддержа­нии связей-гиперссылок, такие открытые семантические струк­туры тем не менее представляют единый развивающийся по определенным закономерностям организм.

В настоящее время техника гиперссылок, применяемая в гипертекстовых системах, предполагает лишь однонаправлен­ные связи, позволяющие осуществлять навигацию только в прямом направлении. «Вернуться» обратно в исходный доку­мент можно только по запомненной цепочке пройденных документов, т. е. по схеме «Вперед-назад». При этом прямой пере­ход по гиперссылке осуществляется из определенного места, точнее контекста исходного документа, а возврат осуществля­ется обратно в документ в целом, т. е. фактически в его начало, что может разрывать контекст (сюжетно-тематический поток) анализа информации. В ранних гипертекстовых системах (про­ект Xanadu) предполагался двунаправленный характер гипер­ссылок, но практическая реализация такого подхода существен­но усложняет протоколы навигации, так как требует более де­тального координатного адресования объектов и субъектов гиперссылок, идентифицирования пользователей и поддержа­ния устойчивости документов (в смысле координатной струк­туры).

В результате модель организации данных в гипертекстовых базах описывается ориентированными невзвешенными графами с петлями и циклами. По определению граф G представ­ляет структуру, состоящую из множества вершин х1 , х2 ,..., х п и множества ребер а1 , а2 ,...,ат, их соединяющих. По ребрам осу­ществляется движение, переход от одной вершины к другой. Ориентированные ребра, по которым переход возможен только в одном направлении, называются дугами. Применительно к структуре гипертекстовой базы вершины графа соответствуют документам, а дуги гиперссылкам. Невзвешенность означает равнозначность любых дуг по переходу, или, иначе говоря, оди­наковую «стоимость» перехода по любой гиперссылке. Петлей называется дуга, начальная и конечная вершины которой со­впадают, т. е. применительно к гипертексту внутренняя гипер­ссылка на другой фрагмент того же документа. Путем (или ори­ентированным маршрутом) называется последовательность дуг, в которой конечная вершина любой дуги, кроме последней, яв­ляется начальной вершиной следующей дуги. В невзвешенном графе, когда стоимость (вес) всех дуг одинакова, длиной пути является число дуг, входящих в путь. Путь а12,...,аq называ­ется замкнутым, если в нем начальная вершина первой дуги а1 совпадает с конечной вершиной последней дуги аq. Если в зам­кнутом пути любая вершина графа используется не более одного раза (за исключением начальной и конечной, которые со­впадают), то такой замкнутый путь называется циклом. При­мер графа приведен на рис. 6.14.

Для алгебраического за­дания графов, позволяющего эффективно алгоритмизиро­вать машинное представле­ние и оперирование графами, используются матрицы смежности и инциденций. Элементы матрицы смежности графа G определяются следующим образом:

= 1, если в G существует дуга аi j;

= О, если в G не существует дуга аij.

Матрица смежности полностью определяет структуру графа. В частности, для графа, приведенного на рис. 6.14, матрица смежности выглядит следующим образом:

Матрица инциденций графа G с n вершинами и m дугами представляет собой матрицу размерности n × m и ее элементы определяются следующим образом:

= 1, если вершина Х является начальной вершиной дуги аj;

= -1, если вершина Х является конечной вершиной дуги аj;

= 0, если вершина Х не является концевой вершиной дуги аj или если дуга аj является петлей.

Графовая модель организации гипертекстовых данных яв­ляется мощным инструментом, так как предоставляет ряд от­работанных в теории графов алгоритмов для решения задач анализа и синтеза структур гипертекстовых баз данных, нави­гации и документального поиска в такого рода структурах.

Вместе с тем, как показала практика развития гипертек­стовых структур, модель ориентированных невзвешенных гра­фов с петлями и циклами является лишь приближенным сред­ством отражения реального процесса восприятия и анализа че­ловеком документальной текстовой информации, не учитывая ряда гносеологических и семантических аспектов.

Анализ работы человека с документальными источниками информации показывает, что ассоциативный ряд восприятия фрагментов и документов не однороден. Ассоциативные отношения выражаются в нескольких формах, в качестве основ­ных из которых можно отметить:

(a) сноски (переходы к ним используются с целью пояснения какого-либо термина, факта и т. д. с обязательным и скорым возвратом, т. е. без прерывания контекста восприятия основного повествования, мысли, идеи);

(b) примеры (переходы по ним используются для иллюстрации частных проявлений объектов, процессов, явлений, и также с обязательным и скорым возвратом без прерывания ос­новного контекста);

(c) отступления, параллельные темы (переходы к ним используются для обогащения основной темы с необязательным или нескорым возвратом, что может приводить к прерыванию контекста изложения основной темы);

(d) подобие по форме и содержанию (переходы используются для более глубокого уяснения основной темы через анализ других подобных по форме, содержанию, структуре или другим критериям тем, фрагментов, объектов, в том числе для рассмотрения других точек зрения и подходов, с необязательным возвратом, что приводит к длительному прерыванию исходного контекста с возможным формированием нового контекста);

(e) особенности (переходы используются для рассмотрения отличий конкретной темы или объекта изложения от подобных по форме или содержанию объектов с обязательным возвратом без прерывания основного контекста);

(f) подобие по сущности (переходы используются для построения ассоциативного ряда подобных или однородных объектов, являющихся частными проявлениями одного общего явления процесса, объекта, возврат не обязателен, что приводит к прерыванию исходного контекста, в том числе и для формирования более общего или более широкого контекста).

Перечисленные формы ассоциативных отношений опреде­ляют необходимость дифференциации типов связей-гиперссы­лок в гипертекстовых базах документов. По признаку прерыва­ния контекста материала можно выделить два типа гиперссылок:

с прерыванием контекста, назовем их навигационными гиперссылками;

без прерывания контекста, т. е. с обязательным возвратом, назовем их листовыми гиперссылками.

Навигационные гиперссылки формируют ассоциативные связи-отношения (с), (d) и (f) типа. Переходы по навигацион­ным связям не имеют каких-либо пространственных и иных ограничений и призваны формировать многоплановый сюжетно-тематический поток.

Листовые гиперссылки формируют ассоциативные связи-отношения (а), (b) и (е) типа. Переходы по листовым гипер­ссылкам ограничиваются единичной длиной к вершинам (уз­лам), из которых нет другого выхода. Направленность дуг-свя­зей по листовым гиперссылкам является обратной по отношению к навигационным гиперссылкам. Это означает, что прямой пе­реход по ним осуществляется не в конкретное место отсылае­мого документа, а в целом на документ (в начало) листовой вер­шины, и наоборот, возврат в документ исходной вершины про­исходит адресно, т. е. в место расположения листовой гиперссылки.

Кроме ассоциативных отношений при восприятии докумен­тальных источников важную роль имеют и классификацион­ные отношения фрагментов и документов в следующих ос­новных формах:

i) «родовидовая» иерархия (переходы используются для углубления, детализации рассмотрения или выбора темы, фраг­мента, сюжета);

ii) иерархически-логические соотношения в форме «ввод­ный материал — основной материал—заключительный мате­риал» (переходы используются для построения или изменения логико-тематического повествования);

iii) ролевые отношения, например такие, как «Объект – субъект – средство – место – время – участники действия» и др. (пе­реходы используются для формирования или расчленения целостного представления сложных разноплановых явлений, про­цессов, событий).

Реализация дифференцированного подхода к образованию и использованию гиперссылок в открытых децентрализованно развивающихся системах является непростой проблемой, так как требует переработки и усложнения протоколов передачи и использования гипертекста, т. е. массового принятия в сети но­вых и более сложных правил всеми пользователями и разра­ботчиками информационных узлов распределенной гипертек­стовой информационной инфраструктуры.

Поэтому подходы, связанные с дифференциацией характе­ра гиперссылок, нашли свое воплощение в первую очередь в закрытых (локальных) гипертекстовых ИПС. В качестве примера развитых в этом смысле гипертекстовых систем можно привести информационно-справочные системы помощи в сре­де ОС MS Windows.

Модель организации данных в гипертекстовых справоч­ных системах Microsoft Windows основана на сочетании диф­ференциации ассоциативных гиперссылок и иерархического принципа организации фрагментов и документов. Схематично модель организации данных можно отобразить схемой, пред­ставленной на рис. 6.15.


Рис. 6.15. Модель организации данных в гипертекстовых спра­вочных

системах Microsoft Windows

 

Как видно из представленной схемы, данная модель соче­тает апробированные и интуитивно понятные большинству пользователей по аналогии работы с книгой иерархическую навигационную структуру (гипертекстовые оглавление и пред­метный указатель) с дифференцированными ассоциативными гиперссылками, выражающими рассмотренные выше различные типы ассоциаций при изучении и восприятии текстовой информации.

Вместе с тем использование справочных гипертекстовых систем все же не может полноценно заменить традиционные книги и учебники, так как большинство таких систем не обес­печивает привычный пользователю по обычным книгам после­довательный повествовательный поток, разрывая его по про­странственной или предметной иерархии, и, кроме того, требу­ют от пользователя новых навыков работы с текстовой информацией и более точного осознания в любой момент сво­их информационных потребностей.

Как и в моделях организации фактографических данных, в модели организации гипертекстовых данных важное значение имеет целостная составляющая. Применительно к гипертек­стовым данным целостность и согласованность данных озна­чает, прежде всего, целостность ссылок и выражается следу­ющим принципом — «для каждой гиперссылки должен су­ществовать адресат». Иначе говоря, целостность гипертекстовых данных выражается в отсутствии оборванных, ведущих в «никуда» связей.

Контроль целостности ссылок возможен на основе созда­ния и ведения единого централизованного реестра гиперссы­лок, как это и осуществляется в замкнутых гипертекстовых базах. Специальный компонент программного обеспечения ги­пертекстовой СУБД при удалениях документов (страниц) по реестру гиперссылок находит имеющиеся в других докумен­тах ссылки на удаляемый документ и аннулирует их.

В открытых распределенных гипертекстовых системах реализация принципа целостности ссылок встречает существен­ные трудности, так как децентрализованный принцип функци­онирования таких систем затрудняет создание и ведение еди­ного реестра гиперссылок. В случае распределенной гипертек­стовой среды за информацию на любом узле отвечает отдельный независимый пользователь, вольный по своему усмотрению добавлять или удалять гипертекстовые страницы (документы). Ввиду отсутствия централизованного реестра и однонаправленного28 характера гиперссылок, при удалении какой-либо гипер­текстовой страницы пользователь не может знать, имеются ли в других документах гиперссылки на удаляемую страницу. В таких ситуациях гиперссылки из других страниц, отсылающие на удаляемые страницы, оказываются оборванными.

28 То есть гиперссылка находится в источнике отсылки, а на отсылаемом адреса­те никакой информации по гиперссылке нет.

Еще более сложной проблемой является обеспечение согласованности данных. Применительно к гипертекстовым си­стемам согласованность данных заключается в поддержании адекватности семантики гиперссылок. Говоря иначе, долж­на обеспечиваться устойчивость смысловых ассоциаций по ги­перссылкам. Однако если изменить содержание того докумен­та, на который отсылает гиперссылка из другого документа, то смысловая ассоциация, закладываемая в гиперссылку, может нарушиться, и в отсылаемом документе речь может пойти на совершенно другую тему.

Тривиальное решение проблемы согласованности гипер­текстовых данных заключается в запрете изменения содержа­ния документов, после внесения их в гипертекстовую базу. Та­кой подход применяется в некоторых системах на основе замк­нутых гипертекстовых баз документов.

В открытых системах с децентрализованным характером функционирования такой подход неприемлем. Вместе с тем одним из возможных направлений решения этой проблемы яв­ляется практикуемая в среде WWW идеология «публикаций». Среда WWW в этом смысле трактуется как гигантское элект­ронное апериодическое издание, на страницах которого каж­дый желающий может «опубликовать» свои документы. Про­блема согласованности данных по гиперссылкам может решать­ся в такой идеологии через введение в гиперссылки темпоральных параметров существования и соответствующих временных ограничений на содержательную изменчивость ги­пертекстовых публикаций. Иначе говоря, могут быть опреде­лены «времена жизни» гиперссылок, в течение которых гипер­текстовые публикации не могут быть изменены. Однако, как и в случае введения двунаправленного характера гиперссылок, такой подход потребует перестройки протоколов и других со­глашений в гигантской распределенной информационной инф­раструктуре.






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных