ТОР 5 статей: Методические подходы к анализу финансового состояния предприятия Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века Характеристика шлифовальных кругов и ее маркировка Служебные части речи. Предлог. Союз. Частицы КАТЕГОРИИ:
|
Виды морфологического анализа• морф анализ со словарем основ; • морф анализ со словарем словоформ; • морф анализ м-дом логич умножения; • морф анализ без словаря, с пом табл. Наиб распр видом автоматич морф анализа явл-ся анализ со словарем основ, исп-мый для большинства европ языков. В этом виде анализа исп-ся словарь основ слов и ряд вспомогательных табл. В словарь вкл-ны основы прост и сложн слов без внутр флексии. Если слово имеет неск форм основ, то в словарь, как правило, вкл-ны все формы основ слов. Каждой основе словаря ставится в соотв-ие сочетание кода основоизменит класса и кода флективного класса, а омонимичной основе - серия сочетаний таких кодов. Так устроен словарь в системе, описываемой Г.Г. Белоноговым. Морф анализ слова нач-ся с его флективного анализа. Последний производится с целью правильного выделения еro основы, замены букв состава основы ее порядковым номером по словарю и опр-я грам инф-ции слова. Алгоритм морфологич анализа состоит из 32 блоков и учитывает все шаги морфологич анализа с пом словаря основ, возможные варианты анализа при отклонении процесса от однозначных правил, переход к следующим ступеням анализа. Морфологический анализ со словарем словоформ также довольно распространен. Из общих соображений он применяется тогда, когда морфология дан яз достаточно бедна. Кроме того, на первый взгляд предст-ся, что алгоритм анализа со словарем словоформ проще, чем алгоритм работы со словарем основ: не надо осущ-ть членение входной словоформы на морфемы с последовательным поиском по словарю и пр. Но на самом деле при анализе со словарем словоформ остаются след проблемы: анализ не найденных в словаре слов. Опр-е нек инфы для слова, не обнаруженного в словаре, явл-ся необх-м для послед анализа: напр, если мы не нашли дан слова, то по крайней мере д опр-ть его ч. р., чтобы не искл-ть возм-ти дальнейшего грам (синтаксич) анализа; отождествление разн словоформ одного и того же слова. Если каждая словоформа будет выступать как самост лексич ед-ца, то это существенно затруднит весь послед анализ и синтез. Словоформы одного слова д б обозначены как таковые. Это означает, что сис-ма морф анализа со словарем словоформ д иметь список аффиксов, корней (основ) слов и др необх-е атрибуты для идентификации разн словоформ одной и той же лексич единицы. Эти требования фактич-и сводят на нет преимущества анализа со словарем словоформ и поэтому анализ со словарем основ применяется значительно чаще. Особое положение занимает сп-б автоматич морф анализа м-дом логич умножения. С.Я. Фитиаловым положены начала формал морфологии (Фитиалов 1961). F-ция, определенная на словоформах и сопоставляющая каждой словоформе нек инфу, наз-ся словарной f-цией. Всегда имеется возм-ть задать значения словарной f-ции в виде табл - словаря словоформ. Однако сущ-т более экономичные сп-бы задания этой f-ции. Так, ее можно представить в виде след последоват-ти 4 операций: 1) словоформа как цепочка букв членится на морфемные сегменты; 2) словоформа как цепочка морфемных сегментов заменяется неупорядоченным мн-вом нов эл-тов - морфем; 3) словоформе как мн-ву морфем приписывается нек инфа; 4) эта инфа преобраз-ся в требуемую окончательную инфу о словоформе. Каждой морфеме м сопоставить инфу, получаемую в рез-те объединения инфы о словоформах, в кот входит дан морфема. Такого рода объединение инфы соотв-т дизъюнкции в логич интерпретации. Инфа о словоформе получается как пересечение, или логич конъюнкция, инфа о морфемах, входящих в дан словоформу. Тем самым f-ция, опр-ная на морфемах-множествах, заменяется f-цией, определенной на морфемах-элементах. Морф анализ м-дом логич умножения применяется к флективным языкам и предусм-т наличие словаря основ. Сущность м-да и применение его к конкр яз м видеть на примере алгоритма анализа рус словоформ, предложенного венгерским специалистом Д. Варгой (Варга 1964). Сначала производится поиск слова в словаре основ. Если слова, имеющие окончания, не находятся в словаре, тогда от каждого такого слова отбрасывается по одной букве справа и поиск повторяется. При отриц ответе отбрасывается след буква и т.д. Отброшенные буквы образ-т окончание и фиксир-ся. Каждая отброшенная буква считается элементарной ед-цей морф анализа. Ей приписывается булевый вектор – совокуп-ть нулей и единиц, компонентов этого вектора. Число компонентов этого вектора равно числу грам категорий, кот м б выражены окончанием, частью кот явл-ся дан буква. Поскольку предварительно был произведен поиск по словарю основ и установлена часть речи анализируемого слова, имеется возм-сть одинаковым буквам, входящим в окончания разных ч. р. (напр, буква -м в окончании существительного и прилагательного) приписывать разн векторы. Пусть, напр, треб-ся опр-ть, в каком числе и падеже стоит сущ «столом». После поиска в словаре устанав-ся, что основа стол - сущ, буквы, входящие в состав окончания, о и м. Буква м встречается среди букв окончаний сущ в Тв. п. ед. ч. м. и ср. р., а также в Д. п. и Тв. п. мн. ч. всех 3 родов. Приписываем букве м такой булевый вектор, в кот на месте компонентов, соотв-щих падежам, в кот-х она встречается, стоят ед-цы, а на месте др компонентов -нули. Таким же образом поступаем и с др буквой окончания. Произведя логич умножение векторов букв о и м, получим в результирующем векторе ед-цу на месте разряда той грам категории, в окончании кот встречается одновременно и буква о, и буква м, а именно в разряде, соответствующем Тв. п. ед. ч. Морф анализ без словаря, или так называемый «независимый» анализ, производится без обращения к словарю, только за счет исп-я таблиц аффиксов и особого списка не имеющих грам значения слов. Такой сп-б исп-ся достаточно редко. Современное состояние морфологического анализа характеризуется тем, что сильно увеличились требования к качеств показателям сис-м автоматич переработки т-та. Теперь задача создания быстродействующего алгоритма морф анализа ставится след образом: • основу сис-мы д сост-ть мощный политематич словарь, обеспечивающий покрытие т-тов по любой тематике не менее чем на 98-99%; • алгоритм анализа д б словоизменительным, что позволит при одном и том же объеме распознавать примерно в 8 раз больше словоформ (для рус яз), чем кол-во лексич единиц в словаре; • «новые» слова д обрабат-ся наряду со словами, содержащимися в словаре. При этом объем инфы для новых слов д б таким же, как и для словарных единиц, а вероятность их правильного определения не менее 90-95 %; • скорость обработки т-тов д б, при прочих равных усл-ях, по крайней мере на порядок выше, чем у существующих процедур; • на объем исходного т-та не должно накладываться никаких ограничений; • сис-ма д сохр-ть свою работоспособность в усл-х дефицита ресурсов ЭВМ; • сис-ма д б обучаемой, т.е. д иметь ср-ва для пополнения имеющихся словарей и настройки их на различн предметные обл-ти; • процедурная часть сис-мы д достаточно легко приспосабливаться к меняющимся ресурсам ЭВМ с целью их наиб оптимального исп-я, а также иметь возм-ть работы с различными входными и выходными форматами; • следует иметь синтаксич ср-ва контроля и корректировки грам инфы к «новым словам» с учетом микроконтекста; • д б разработаны спец инфо стр-ры для представления данных и м-ды доступа к ним более эффективные, чем стр-ры и м-ды, входящие в состав операционных сис-м ЭВМ. Массивы т.о. подобранных данных имеют по состоянию на сегодняшний день след измерения: политематич словарь словоизменительных основ слов содержит более 100 000 лексич ед-ц и обеспечивает оч высокое покрытие научно-технич лексики практич-ки любой тематики. Этот словарь был создан в рез-те обработки т-тов обьемом свыше 30 млн слов. Словарь словоформ, составленный по т-там, вкл-т 46 тыс. лексич ед-ц, он составлен по т-там объемом более 3 млн слов. Два этих словаря имеют тщательно выверенные наборы грам инфы, дающие детальное предст-е о морфологич стр-ре слов и их синтаксич св-вах (Зеленков 1988). Эл-ты морф анализа довольно сильно выражены даже в яз с грам строем, существенно отличающимися от строя европ яз-в. МП с китайского яз, напр, предусм-т процедуру анализа односложных и двусложных кит. слов на ур-не, близком к ур-ню морфем (Зелко 1991). Автоматич морф анализ вызвал к жизни спец тип словарей. Лексич ед-цы яз упорядочиваются в соотв-вии с формой и правилами порождения и образ-я словоформ, по словоизменительным и словообразовательным классам. Одним из видов словарей такого типа, т.е. специально учитывающих требования морф анализа, явл-ся обратные словари, применение кот началось от спец требований лингвистич дешифровки и кот в наст время широко прим-ся в МП для опр-я грам хар-к не найденных в словаре слов, при анализе словоформ флективных языков. (Штиндлова 1966, Белоногов 1971, Козьмина 1988 и пр.) Особенностью обратных словарей явл-ся предст-ие слов словника: сначала идут слова, оканчивающиеся на первую букву алфавита, затем на вторую и т.д. При совпадении послед букв учит-ся предпослед буквы, далее - третьи от конца и т.д. Т.о. слова расположены в алфавитном порядке, начиная от конца слова. При этом, естественно, объединяются слова, относящиеся к единому словобразовательному или словоизменительному типу, сложн слова с одинаковой последней составляющей. Обратные словари м решать достаточно широкий круг задач. Они наглядно предст-т морфологич характ-ки дан яз. Если грам описания часто содержат утверждения о том, что слова с такими-то окончаниями обладают опр св-вом, то обратный словарь, в кот содержатся списки одинаково оканчивающихся слов, позв-т установить все слова, кот обладают тем или иным св-вом, а также те, кот этим св-вом не обладают. На основе обратного словаря м б получены списки слов, относящиеся к одному словоизменительному типу. М также выявить все слова, имеющие одинак строение концов, но разн грам характ-ки, и получить данные о соотношении между окончанием слова и его принадлежностью к опр словоизменительному типу. Возникает возм-ть опр-ть синонимию и омонимию формантов, их сочетаемость, количеств хар-тики отд формантов и их сис-мы. Морф анализ в своем удельном весе в сис-ме автоматич обработки т-тов существенно зависит от типа анализируемого яз. Ясно, что флективные яз несут больше инфы в морфологич формантах, чем яз аналитич типа, выр-щие синтаксич отн-я главным образом с пом порядка слов. Попытки классифицировать яз по их отн-ю к нек единому общему алгоритму морфологич анализа оказались не плодотворными, поскольку такой алгоритм обладал бы нулевой универсальностью. Сис-ма морфологич признаков (декларативные знания) тесно связана с сис-мой знаний процедурных - самим алгоритмом.
Не нашли, что искали? Воспользуйтесь поиском:
|