Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Информационно-технологическая структура полнотекстовых ИПС




Полнотекстовые ИПС строятся на основе информационно-поисковых языков дескрипторного типа. Их информационно-технологическая структура представлена на рис. 6.9 и включа­ет следующие элементы:

• хранилище (базу) документов;

• глобальный словарь системы;

• индекс документов инвертированного типа;

• интерфейс ввода (постановки на учет) документов в сис­тему;

• механизм (машину) индексирования;

• интерфейс запросов пользователя;

• механизм поиска документов (поисковую машину);

• механизм извлечения (доставки) найденных документов.

Хранилище документов может быть организовано как единая локально сосредоточенная информационная структу­ра в виде специального файла (файлов) с текстами докумен­тов. Организация такого файла предусматривает указательную конструкцию на основе массива адресов размещения докумен­тов. Для компактного хранения документов они могут быть сжаты архиваторами.

Другой вариант не предусматривает создания локально со­средоточенного хранилища документов, а ограничивается лишь массивом адресов расположения документов в соответствующей компьютерной информационной инфраструктуре (струк­тура дисков и каталогов отдельного компьютера или локаль­ной информационной сети, информационная инфраструктура глобальной информационной сети). Файлы текстовых докумен­тов распределены и размещаются в тех узлах и элементах ин­формационной инфраструктуры, которые соответствуют техно­логии создания и обработки документов (документообороту). Вместе с тем все они учтены в полнотекстовой ИПС­ (т. е. проиндексированы по содержанию и зафиксированы по месторас­положению) для эффективного поиска и доступа к ним. Такой подход более логичен с точки зрения технологий документо­оборота или распределенного характера систем (например, си­стема WWW сети Интернет), но недостатком имеет необходимость постоянного отслеживания и учета возможных переме­щений документов.


Рис. 6.9. Информационно-технологическая структура полнотек­стовых ИПС

 

Одним из наиболее характерных элементов полнотексто­вых ИПС является глобальный словарь системы. Глобальные словари могут быть статическими и динамическими.

Статические словари не зависят от содержания докумен­тов, вошедших в хранилище, а определены изначально в систе­ме. В качестве таких статических словарей в том или ином виде, как правило, выступают словари основных словоформ соответ­ствующего языка (русского, английского, немецкого и т. д.).

Динамические словари определяются набором словоформ, имеющихся в накапливаемых в хранилище документах. Изна­чально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы, которых еще не было в ранее накопленных документах. Такой подход более экономи­чен и обеспечивает некоторую настройку словарной базы на предметную область документов.

Элементы глобального словаря выступают в качестве дес­крипторов ИПЯ системы. Поступающие через интерфейс ввода/вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полно­текстовых МПС полностью автоматизируется и заключается в создании специального двоичного вектора, компоненты кото­рого показывают наличие или отсутствие в данном документе слова с соответствующим номером (позицией) из глобального словаря. В результате на «учет» в системе ставятся все слова текста документа, откуда, повторимся, происходит и название— «полнотекстовые ИПС».

Важной особенностью, оказывающей существенное влия­ние на эффективность полнотекстовых ИПС, является на­личие либо отсутствие морфологического разбора при индек­сировании документов и запросов. Морфологический разбор по­зволяет распознавать как одну общую словоформу все однокоренные слова (вода, водный, водяной), а также лексемы, т. е. одни и те же слова, отличающиеся в тексте различными окон­чаниями, приставками и суффиксами (водный, водного, водному, воду, воде и т. п.). Такой процесс основывается на нормали­зации глобального словаря системы, объединяющей в одну сло­воформу (в одну позицию) все однокоренные слова и лексемы. Кроме того, при морфологическом разборе отбрасываются так называемые неинформативные слова (стоп – слова) — предло­ги, союзы, восклицания, междометия и некоторые другие грам­матические категории. В большинстве случаев морфологичес­кий разбор осуществляется в системах со статическим глобаль­ным словарем. Для русского языка в качестве такого нормализованного глобального словаря используется составлен­ный в 1968 году академиком И. К. Зализняком морфологичес­кий словарь русского языка. Он позволяет распознать и соот­ветственно нормализовать более 3 млн. словоформ.

В результате индексирования ПОД каждого нового доку­мента представляется набором словоформ из глобального сло­варя, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы. Индекс строится по инвертированной схеме и в дво­ичном виде отражает весь (полный) текст учтенных или накоп­ленных документов.

При удалении документа из системы соответственно уда­ляется и поисковый образ документа, т. е. соответствующий столбец индекса.

Пользователь языком запросов ИПЯ полнотекстовой ИПС через соответствующий интерфейс запросов выражает свои информационные потребности по поиску документов, которые в общем плане, так же как и документы, индексируются и в виде двоичных векторов поисковых образов запросов поступа­ют на поисковую машину. Механизм поиска основывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образую­щими индекс системы. Результатом поиска является определе­ние номеров документов, поисковые образы которых соответ­ствуют или близки поисковому образу запроса. Далее специ­альная подсистема на основе установленных в хранилище документов указательных конструкций извлекает и достав­ляет соответствующие документы пользователю.

Таким образом, программное обеспечение полнотекстовых ИПС обеспечивает полный технологический цикл ввода, обра­ботки, поиска и получения документов. В практическом плане ИПС могут поставляться как готовый информационный про­дукт, т. е. с уже сформированной базой документов и интерфей­сом поиска и доступа к ним23. В других случаях поставляется программная среда, позволяющая такую базу создать и сформи­ровать тем самым документальную информационно-поисковую систему. Такие программные средства иногда называют полно­текстовыми СУБД.

23 Такими информационными продуктами, основанными в том числе и на полно­текстовых технологиях, являются многочисленные юридические информа­ционно-спра­вочные системы — «Кодекс», «Гарант», «Консультант плюс» и др.

 






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных