Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Виды морфологического анализа




• морф анализ со словарем основ;

• морф анализ со словарем словоформ;

• морф анализ м-дом логич умножения;

• морф анализ без словаря, с пом табл.

Наиб распр видом автоматич морф анализа явл-ся анализ со словарем основ, исп-мый для большинства европ языков. В этом виде анализа исп-ся словарь основ слов и ряд вспомогательных табл. В словарь вкл-ны основы прост и сложн слов без внутр флексии. Если слово имеет неск форм основ, то в словарь, как правило, вкл-ны все формы основ слов. Каждой основе словаря ставится в соотв-ие со­четание кода основоизменит класса и кода флективного класса, а омонимичной основе - серия сочетаний таких кодов. Так устроен сло­варь в системе, описываемой Г.Г. Белоноговым.

Морф анализ слова нач-ся с его флективного анализа. Последний производится с целью правильного выделения еro основы, замены букв состава основы ее порядковым номером по словарю и опр-я грам инф-ции слова.

Алгоритм морфологич анализа состоит из 32 блоков и учитывает все шаги морфологич анализа с пом словаря основ, возможные варианты анализа при отклонении процесса от однозначных правил, переход к следующим ступеням анализа.

Морфологический анализ со словарем словоформ также довольно распространен. Из общих соображений он применяется тогда, когда морфология дан яз достаточно бедна. Кроме того, на пер­вый взгляд предст-ся, что алгоритм анализа со словарем слово­форм проще, чем алгоритм работы со словарем основ: не надо осущ-ть членение входной словоформы на морфемы с после­довательным поиском по словарю и пр. Но на самом деле при анализе со словарем словоформ остаются след проблемы: анализ не найденных в словаре слов. Опр-е нек ин­фы для слова, не обнаруженного в словаре, явл-ся необх-м для послед анализа: напр, если мы не нашли дан слова, то по крайней мере д опр-ть его ч. р., чтобы не искл-ть возм-ти дальнейшего грам (синтаксич) анализа; отождествление разн словоформ одного и того же слова. Если каждая словоформа будет выступать как самост лексич ед-ца, то это существенно зат­руднит весь послед анализ и синтез. Словоформы одного сло­ва д б обозначены как таковые. Это означает, что сис-ма морф анализа со словарем словоформ д иметь список аффиксов, корней (основ) слов и др необх-е атри­буты для идентификации разн словоформ одной и той же лекси­ч единицы.

Эти требования фактич-и сводят на нет преимущества анализа со словарем словоформ и поэтому анализ со словарем основ применяется значительно чаще.

Особое положение занимает сп-б автоматич морф анализа м-дом логич умножения. С.Я. Фитиаловым положены начала формал морфологии (Фитиалов 1961). F-ция, определенная на словоформах и сопоставляющая каждой словоформе нек инфу, наз-ся словар­ной f-цией. Всегда имеется возм-ть задать значения сло­варной f-ции в виде табл - словаря словоформ. Однако сущ-т более экономичные сп-бы задания этой f-ции. Так, ее можно представить в виде след последоват-ти 4 операций:

1) словоформа как цепочка букв членится на морфемные сегменты;

2) словоформа как цепочка морфемных сегментов заменяется не­упорядоченным мн-вом нов эл-тов - морфем;

3) словоформе как мн-ву морфем приписывается нек инфа;

4) эта инфа преобраз-ся в требуемую окончательную ин­фу о словоформе.

Каждой морфеме м сопоставить инфу, получаемую в рез-те объединения инфы о словоформах, в кот вхо­дит дан морфема. Такого рода объединение инфы соотв-т дизъюнкции в логич интерпретации. Инфа о словоформе получается как пересечение, или логич конъюнкция, инфа о морфемах, входящих в дан словоформу. Тем самым f-ция, опр-ная на морфемах-множествах, заменяется f-ци­ей, определенной на морфемах-элементах.

Морф анализ м-дом логич умножения при­меняется к флективным языкам и предусм-т наличие словаря основ. Сущность м-да и применение его к конкр яз м видеть на примере алгоритма анализа рус словоформ, предложенного венгерским специалистом Д. Варгой (Варга 1964). Сначала производится поиск слова в словаре основ. Если слова, имеющие окончания, не находятся в словаре, тогда от каждого та­кого слова отбрасывается по одной букве справа и поиск повторя­ется. При отриц ответе отбрасывается след буква и т.д. Отброшенные буквы образ-т окончание и фиксир-ся. Каж­дая отброшенная буква считается элементарной ед-цей морф анализа. Ей приписывается булевый вектор – совокуп-ть нулей и единиц, компонентов этого вектора. Число компонентов этого вектора равно числу грам категорий, кот м б выражены окончанием, частью кот явл-ся дан буква. Поскольку предварительно был произведен по­иск по словарю основ и установлена часть речи анализируемого слова, имеется возм-сть одинаковым буквам, входящим в окон­чания разных ч. р. (напр, буква -м в окончании суще­ствительного и прилагательного) приписывать разн векторы.

Пусть, напр, треб-ся опр-ть, в каком числе и падеже стоит сущ «столом». После поиска в словаре устанав­-ся, что основа стол - сущ, буквы, входящие в состав окончания, о и м. Буква м встречается среди букв окончаний сущ в Тв. п. ед. ч. м. и ср. р., а также в Д. п. и Тв. п. мн. ч. всех 3 родов. Приписываем букве м такой булевый вектор, в кот на месте компонентов, соотв-щих падежам, в кот-х она встречается, стоят ед-цы, а на месте др компонентов -нули. Таким же образом поступаем и с др буквой окончания. Произведя логич умножение векторов букв о и м, получим в результирующем векторе ед-цу на месте разряда той грам категории, в окончании кот встречается одновременно и буква о, и буква м, а именно в разряде, соответствующем Тв. п. ед. ч.

Морф анализ без словаря, или так называемый «не­зависимый» анализ, производится без обращения к словарю, толь­ко за счет исп-я таблиц аффиксов и особого списка не имеющих грам значения слов. Такой сп-б исп-ся достаточно редко.

Современное состояние морфологического анализа характеризуется тем, что сильно уве­личились требования к качеств показателям сис-м автома­тич переработки т-та. Теперь задача создания быстродействующего алгоритма морф анализа ставит­ся след образом:

• основу сис-мы д сост-ть мощный политематич сло­варь, обеспечивающий покрытие т-тов по любой тематике не менее чем на 98-99%;

• алгоритм анализа д б словоизменительным, что позволит при одном и том же объеме распознавать примерно в 8 раз больше словоформ (для рус яз), чем кол-во лексич еди­ниц в словаре;

• «новые» слова д обрабат-ся наряду со словами, содержа­щимися в словаре. При этом объем инфы для новых слов д б таким же, как и для словарных единиц, а вероятность их правильного определения не менее 90-95 %;

• скорость обработки т-тов д б, при прочих равных усл-ях, по крайней мере на порядок выше, чем у существующих про­цедур;

• на объем исходного т-та не должно накладываться никаких огра­ничений;

• сис-ма д сохр-ть свою работоспособность в усл-х де­фицита ресурсов ЭВМ;

• сис-ма д б обучаемой, т.е. д иметь ср-ва для пополнения имеющихся словарей и настройки их на различн предметные обл-ти;

• процедурная часть сис-мы д достаточно легко приспосабливаться к меняющимся ресурсам ЭВМ с целью их наиб оптимального исп-я, а также иметь возм-ть работы с различными входными и выходными формата­ми;

• следует иметь синтаксич ср-ва контроля и корректиров­ки грам инфы к «новым словам» с учетом микроконтекста;

• д б разработаны спец инфо стр-­ры для представления данных и м-ды доступа к ним более эф­фективные, чем стр-ры и м-ды, входящие в состав операционных сис-м ЭВМ.

Массивы т.о. подобранных данных имеют по состо­янию на сегодняшний день след измерения: политематич словарь словоизменительных основ слов содержит более 100 000 лексич ед-ц и обеспечивает оч высокое покрытие науч­но-технич лексики практич-ки любой тематики. Этот словарь был создан в рез-те обработки т-тов обьемом свыше 30 млн слов. Словарь словоформ, составленный по т-там, вкл-т 46 тыс. лексич ед-ц, он составлен по т-там объемом более 3 млн слов. Два этих словаря имеют тщательно выверенные наборы грам инфы, дающие детальное предст-е о морфологич стр-ре слов и их синтаксич св-вах (Зеленков 1988).

Эл-ты морф анализа довольно сильно выражены даже в яз с грам строем, существенно отличающимися от строя европ яз-в. МП с китайского яз, напр, предусм-т процедуру анализа односложных и двуслож­ных кит. слов на ур-не, близком к ур-ню морфем (Зелко 1991).

Автоматич морф анализ вызвал к жизни спец тип словарей. Лексич ед-цы яз упорядочиваются в соотв-вии с формой и правилами порождения и образ-я слово­форм, по словоизменительным и словообразовательным классам. Од­ним из видов словарей такого типа, т.е. специально учитывающих требования морф анализа, явл-ся обратные словари, применение кот началось от спец требований лингвисти­ч дешифровки и кот в наст время широко прим-ся в МП для опр-я грам хар-к не найденных в словаре слов, при анализе словоформ флективных язы­ков. (Штиндлова 1966, Белоногов 1971, Козьмина 1988 и пр.)

Особенностью обратных словарей явл-ся предст-ие слов словника: сначала идут слова, оканчивающиеся на первую букву алфавита, затем на вторую и т.д. При совпадении послед букв учит-ся предпослед буквы, далее - третьи от конца и т.д. Т.о. слова расположены в алфавитном порядке, начиная от конца слова. При этом, естественно, объединяются слова, относя­щиеся к единому словобразовательному или словоизменительному типу, сложн слова с одинаковой последней составляющей.

Обратные словари м решать достаточно широкий круг задач. Они наглядно предст-т морфологич характ-ки дан яз. Если грам описания часто содержат утверждения о том, что слова с такими-то окончаниями обладают опр св-вом, то обратный словарь, в кот содержатся списки оди­наково оканчивающихся слов, позв-т установить все слова, ко­т обладают тем или иным св-вом, а также те, кот этим св-вом не обладают. На основе обратного словаря м б получены списки слов, относящиеся к одному словоизменительно­му типу. М также выявить все слова, имеющие одинак стро­ение концов, но разн грам характ-ки, и получить данные о соотношении между окончанием слова и его принадлеж­ностью к опр словоизменительному типу. Возникает воз­м-ть опр-ть синонимию и омонимию формантов, их сочетаемость, количеств хар-тики отд форман­тов и их сис-мы.

Морф анализ в своем удельном весе в сис-ме автоматич обработки т-тов существенно зависит от типа анализируемого яз. Ясно, что флективные яз несут больше инфы в морфологич формантах, чем яз аналити­ч типа, выр-щие синтаксич отн-я главным образом с пом порядка слов.

Попытки классифицировать яз по их отн-ю к нек единому общему алгоритму морфологич анализа оказались не плодотворными, поскольку такой алгоритм обладал бы нулевой универсальностью. Сис-ма морфологич призна­ков (декларативные знания) тесно связана с сис-мой знаний процедур­ных - самим алгоритмом.

 

 






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных