Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Текстовые процессоры




Лингв проц-р (ЛП) – посредник м/у польз-лем и БД, в кот. хранится интересующая его инфа. Задача ЛП – преобразование ест яз пр-я (т-та) в нек набор сем стр-р, явл-ся формал предст-ем смысла исход пр-я (т-та). Цель – обеспечить исходные данные для работы посиковых мех=змов программ. Операции, выполняемые с пом ЛП: - разбиение т-та док-та на слова - распознавание яз док-та - морфологизация и лемматизация (преобр-е т-вых форм слов в словарные) - индексация слов и с/с-й

Для каждой операции сущ-ет неск-ко вар-тов ее практ реализ-и. На входе – т-вый док-т м.б. с наложенным форматированием, на выходе – бинарный морф образ док-та, с кот. можно работать без учета особ-тей конкр языка.

Т-вые проц-ры (ТП) решают задачу извлечения знаний в первую очередь из неструктурированных и слабоструктурированных т-тов на ест яз. ЛП м.б. выполнен в виде библиотеки, доступной разл приложениям; не взд-ет напрямую с польз-лем (эти ср-ва предоставл программным окруж-ем ЛП). Также в задачу ЛП не входит прям взд-е с БД исходных данных и БД рез-тов анализа – эту f-ю выполняет прикладная программа.

Уровни анализа: лекс и морв не предст-ют серьез трудностей для программной реализ-и. наиб трудность – синт-с + сем-ка.

1. Лекс сводится к стандартному лекс анализу, применяемому для формал яз-в. ЛА выполняет вспомогат f-и, не имеет возм-ти взд-я с польз-лем / настройки. Блок ЛА принимает исход т-т непосред-но от т-вого редактора. Анализируемый т-т – массив, кот. сост из прописных и строчных букв алфавита дан яз, цифр и знаков пунктуации. Анализатор д. преобразовать его в массив лекс 1ц. для кажд лекс 1цы формир-ся отд строка, в кот-ю копируются все смыслы, принадлежащие дан лекс 1це. При этом удаляются пробелы, символы переноса, конца строки и незнакомые символы.

Рез-т ЛА – выходной динамич массив, в кот. занесены указатели на все сформ-ся строки.

2. Морф сводится к списку слвф-мы в БД.

Задачи: - опр-ть все грам хар-ки слова (POS, р,ч,п, одуш-ть, спряжение) - приводить разл грам формы слова к нормал форме - получать все грам формы слова - проверять орфографию

Методы:

1) декларативный – поиск нужной слвф-мы в сл-ре и копирование морф инфы в программу. Хар-но наличие полн сл-ря всех возм-х слвф-м для кажд слова. Кажд слвф-ма снабжается полной и однозначн морф инфой, в кот-ю входят пост и перемен морф параметры.

Недостатки: - чрезмерно большой объем сл-ря (=> технич проб-мы); - невозм-ть полного размещения сл-ря в оперативной памяти ПК при МА; - высок избыточность инфы, связ с пост признаками каждой слвф-мы.

Достоинства: - простота при создании; - высокая скорость.

2) процедурный – кажд слово делится на основы и аффиксы. Сл-рь содержит т-ко основы слов + ссылки на соотв строки в таблице возм-х аф-сов. Осн критерий – основа д. оставаться неизменяемой во всех возм-х слвф-мах дан слова. => из сл-ря основ необх-мо поочередно выбирать все основы, совпад с начал буквами анализируемого слова и перебирать все возм аф-сы. Точн совпадение – рез-т успешный. Пост морф парам-ры опр-ся основой, а переменные – аф-сами.

Недостаток: невозм для кажд слова опр-ть основу и аффикс (ej мест-е)

3) комбинированный: 1. поиск по сл-рю морфем; 2. посик по сл-рю основ.

4) вероятностно-статистический – для кажд лекс-грам класса слвф-м указ-ся частота встречаемости исход лекс-грам класса отн-но других лекс-грам классов дан слвф-мы.

3. Синт. Осн пр-ма – решение неоднозначности. 2 подхода к это пр-ме:

а) формально-грам – создание сложн с-мы правил, кот. позволили бы в кажд конкр случае принимать решение в пользу любой синт стр-ры.

б) вероятностно-статистический – сбор статистики встречаемости разл стр-р в похожем конт-те, на основе кот. принимается решение о выборе вар-та стр-ры.

Задачи СА:

- грам разбор пр-я с построение дерева синт-сем зависимостей м/у его словами

- выделение п-й пр-я с опр-ем их синт и сем ролей

- разрешение морф омонимии

Этапы:

1) предсинт анализ – пр-е преобразуется в последовательность базовых текстовых 1ц (ПБТЕ), кот. соотв-ют отд словам и знакам препинания.

2) собственно синт ан-з – ПБТЕ подверг-ся комплексу процедур грам разбора в соотв-и с правилами согласования и управления в РЯ с исп-ем сл-ря моделей управления предикатов (V и отглаг N). Рез-т – список сем-ки значимых ТЕ + разл типов отн-й м/у ними (дерево синт-сем зависимостей).

3) постсинт ан-з:

- фильтрация сем-ки малозначимых слов

- замена синонимов и многословных п-й

- приведение п-й к > общим

Выявляются синт-сем отн-я м/у п-ми т-та, синтезир-ся именные группы и опр-ся синт роли п-й, пр-й в дереве зависимости.

4. Сем

Этапы:

1) поверхностный СА – устанавл-ся сем отн-я в рамках пр-я

2) глубинный СА – устан-ся сем связи м/у пр-ми, сем узлы связ-ся с др сем узлами, орг-ся связно-сем сеть

3) прагматический СА – смысловое связывание т-та в единое целое и его интерпретация

Сем узел – такой объект т-вой сем-ки, у кот. заполнены все валентности как эксплицитн выраж-я в т-те, так и имплицитные. В конце СА п/е выявления синтагм и парадигм связей строятся сем узлы. Источник связи – данные из синт анализ-ра + сл-рей тезаурусов. Все связи анализ-ся, комбинируются, строятся сем узлы.

Основа сем ан-за – 2 с-мы: синтагм и парадигм отн-й м/у лексемами:

1) толково-комбинаторн сл-ри – опис-ют ограничения на сочетаемость лекс 1ц в опр синт ролях

2) тезаурус – многоуровненвый тематич сл-рь-классификатор по устоявшимся отраслям знаний. Он отражает след виды отн-й м/у словами:

- гиперлексемные (гиперонимы – обобщ п-я, гипонимы – узк п-я)

- синонимич

- антонимич

- часть-целое (мероним - голоним)

Области применения ЛП:

Þ внутренние трансляторы (с одних яз-в индексирования на другие и на ИПЯ)

Þ поисков ЛП (сопоставление кодов и поисков предписаний на ИПЯ + принятие решения об их тематич соотв-и)

Þ ком трансляторы: прямые (с яз индексирования на яз-посредник) и обратные

Þ процессоры актуализации лингвопроцессорных и инф-яз сл-рей

Þ проц МП

Þ проц транслитерации

ej LinkParser USA 90s

проект Микрокосмос 91-99 - МП

 

Контент-анализ, количест анализ текстов и текстовых массивов с целью послед содержат интерпретации выявленных числовых закономерностей.

Осн идея КА проста и интуитивно наглядна. При восприятии текста и особенно больших текст-х потоков мы достаточно хорошо ощущаем, что разн форм и содержат компоненты предст-ны в них в разн степени, причем эта степень по крайней мере отчасти поддается измерению: ее мерой служит то место, которое они занимают в общем объеме, и/или частота их встречаемости. Через все выступления X-а красной нитью проходит тема Y; X постоянно обращался в своей речи к проблеме Y; Он не упускал ни одного случая, чтобы не лягнуть Z-а; Ну, задудел в свою дуду, – все эти выражения, число кот м легко увеличить, свидетельствуют об осознании нами такого феномена, как наличие в изливающемся на нас информацион потоке нек настойчиво повторяющихся тем, образов, ссылок на проблемы, оценок, утверждений (Карфаген должен быть разрушен или Российская экономика задыхается без инвестиций), аргументов, формальных конструкций, конкр имен и т.д. Более того, подобно тому как в мире механики мы ощущаем не скорость, а ускорение, так и при восприятии текста мы особенно хорошо осознаем именно динамику содержания – те случаи, когда, например, кого-то вдруг перестают или начинают бранить или когда в текстах вдруг появл-ся какая-то новая тема.

Замысел КА закл-ся в том, чтобы систематиз-ть эти интуитивные ощущения, сделать их наглядными и проверяемыми и разработать методику целенаправленного сбора тех текст-х свидетельств, на кот-х эти ощущения основ-ся. При этом предполаг-ся, что вооруженный такой методикой исследователь сможет не просто упорядочить свои ощущения и сделать свои выводы более обоснованными, но даже узнать из текста больше, чем хотел сказать его автор, ибо, скажем, настойчивое повторение в тексте каких-то тем или употребление каких-то характерных формал эл-тов или конструкций м не осознаваться автором, но обнаруживает и опр образом интерпретируется исследователем – отсюда принадлежащее социологу А.Г.Здравомыслову полушутливое определение КА как «научно обоснованного метода чтения между строк».

Реально гл отличит чертой КА явл-ся его квантитативный характер. КА – это прежде всего количеств-ый м-д, предполаг-щий числовую оценку каких-то компонентов текста, могущую дополняться также различн качественными классификациями и выявлением тех/иных структурн закономерностей. Поэтому наиб удачным опр-ем КА можно считать то, кот зафиксировано в относительно недавней книге Мангейма и Рича: КА – это систематическая числовая обработка, оценка и интерпретация формы и содержания инф-о источника.

С т зр лингвистов и специалистов по информатике, КА явл-ся типичным примером прикладного инф-го анализа т-та, сводящегося к извлечению из всего разнообразия имеющейся в нем инфы каких-то специально интересующих исследователя компонентов и представлению их в удобной для восприятия и последующего анализа форме. Многочисленные конкр варианты КА различ-ся в зависимости от того, каковы эти компоненты и что именно понимается под т-том.

Конкр прикладные цели КА также варьируют. Еще в 1952 амер исслед-тель Б.Берелсон сформулировал 17 целей КА – описание тенденций в изм-нии содержания коммуник процессов; описание различий в содержании коммуник процессов в разл странах; сравнение различ СМИ; выявление исп-мых пропагандистских приемов; опр-ние намерений и иных характ-тик участников коммуникации; опр-ние психологич состояния индивидов и/или групп; выявление установок, интересов и ценностей разл групп населения и обществ институтов; выявление фокусов внимания индивидов, групп и соц институтов и др.

Исторически КА – наиб ранний систематич подход к изучению текста. Самый 1ый упоминаемый в лит-ре КА-тич-й опыт – это проведенный в Швеции в 18 в. анализ сборника из 90 церковных гимнов, прошедших гос цензуру и приобретших большую популярность, но обвиненных в несоответствии религ догматам. Наличие/отсутствие такового соответствия и определялось путем подсчета в т-тах этих гимнов религ символов и сравнения их с др религ текстами, в частности запрещенных церковью т-тами «моравских братьев». В 1930–40-х гг б вып-ны исслед-я, признаваемые ныне классикой КА, прежде всего работы Г.Лассуэлла, деят-ть кот продолжалась и в послевоенные годы. Во время 2 Мировой войны имел место самый знаменитый эпизод в истории КА – это предсказание британскими аналитиками времени начала исп-я Германией крылатых ракет «Фау-1» и баллистических ракет «Фау-2» п/в Великобритании, сделанное на основе анализа (совместно с американцами) внутр пропагандистских кампаний в Германии.

Начиная с 1950-х гг КА как исследоват м-д активно исп-ся практич-ки во всех науках, так/иначе практикующих анализ т-товых источников – в т. массовой коммуникации, в социологии, политологии, истории и источниковедении, в культурологии, литературоведении, прикл лингвистике, психологии и психиатрии. Разнообразие конкр проектов, реализов-х за примерно 70-летнюю историю интенсивного исп-я КА, очень велико. Среди интересных проектов, вып-х за последние годы в России, м назвать исслед-е образов и метафор, исп-шихся в 1996–1997 в ходе развернутой тогда в российской прессе дискуссии о национ идее, а также вып-ный в тот же период анализ т-тов левонационалистич оппозиции. Локальные КА-тич-е проекты периодически реализ-ся в ходе различн рода социологич мониторингов – общенациональн и региональных.

Наиб широкое распр-е КА получил в т. массовой коммуникации, политологии и социологии. Этим отчасти объясняется тот факт, что иногда этот термин исп-ся как обобщающий для всех м-дов систематич. и претендующего на объективность анализа политич т-тов и т-тов, циркулирующих в каналах массовой коммуникации. Однако такое расширительное понимание КА неправомерно, поскольку сущ-т ряд исслед м-дов – либо специально разработанных для анализа политич т-тов (напр, м-д когнитивного картирования), либо применимых и применяемых для этой цели (напр, м-д семантич дифференциала или различн подходы, предполаг-щие изучение стр-ры т-та и механизмов его возд-я), – кот не м б сведены к стандартному КА даже при максимально широком его понимании.

Тем не менее КА действит-но занимает среди аналитич м-дов особое место в силу того, что явл-ся среди них самым технологичным и в силу этого в наиб степени подходящим для систематич мониторинга больших инфо потоков. Помимо этого, КА достаточно гибок для того, чтобы в его рамки мог быть успешно «вписан» весьма разнообразный круг конкр типов исслед-й. Наконец, будучи в основе своей количеств м-дом (хотя и содержащим немалую качеств составляющую), КА в опр степени поддается формализации и компьютеризации.

Основа КА – это подсчет встречаемости нек компонентов в анализируемом инфо массиве, дополняемый выявлением статистич взаимосвязей и анализом структурн связей м/у ними, а также снабжением их теми/иными количеств/качеств характерис-ми.

Колич КА в первую очередь интересуется частотой появления в т-те опр хар-тик (переменных) содержания. Качеств КА позв-т делать выводы даже на основе единственного присутствия или отсутствия опр хар-ки содержания.

Различие двух подходов довольно легко проиллюстрировать примерами. В 50-е годы западные аналитики на основе колич анализа статей газеты "Правда" обнаружили резкое снижение числа ссылок на Сталина. Отсюда они сделали закономерный вывод, что последователи Сталина стремятся дистанцироваться от него. С др стороны, качеств аналитик мог бы сделать аналогичный вывод на основе единственного факта, что в публичной речи одного из партийных функционеров, посвященной победе СССР в ВОВ, Сталин вообще не б упомянут. Прежде такое было бы немыслимо.

Очевидно, что колич КА легче поддается реализации в комп программах. Именно по этой причине в дальнейшем мы будем вести речь исключительно о м-дах колич КА.

Следует обратить внимание на то, что когда говорят о КА т-тов, то гл интерес всегда закл-ся не в самих характ-ках содержания, а во внеяз реальности, кот за ними стоит – личн характ-ках автора т-та, преследуемых им целях, характ-ках адресата т-та, различн событиях обществ жизни и пр.

Также может проводится анализ по категориям. В кач-ве категории м выступать набор слов, объединенных по опр основанию. М сказать, что посредством категорий в КА предст-ны опр концептуальные образования. Так в случае с посланиями Б.Клинтона была образована категория «экономика», в кот входили слова - экономика, безработица, инфляция. В категорию «семья» входили слова - ребенок, семья, родители, мать, отец. Именно учет частот встречаемости категорий, а не отд слов, позв-т судить о внимании, уделенном в послании тем/ иным вопросам.

Очевидно, что от качества составления таких категорий во многом зависит качество результатов анализа. КА т-тов с исп-ем категорий наз-т концептуальным анализом. Сфера его применения довольно широка. 2 осн типа задач, решаемых с его пом:

1. Есть два или более т-тов, кот необх-о сравнить в отн-ии нагрузки на опр категории. Напр, задача выяснить, какое внимание уделяют 2 разн газеты опр темам. Если эти газеты рассчитаны на одну аудиторию, то существенное различие в частотах позволит судить о различиях в политике, проводимой людьми, стоящими за ними.

2. Задача отслеживания динамики изменения нагрузки на опр категории. Напр, выяснить частоту упоминания темы внешнего долга России в фиксированном наборе центр газет на протяжении какого-то времени и соотнести ее с колебаниями курса доллара путем простого корреляционного анализа.

Иногда требуется сделать вывод на основе анализа 1 т-та. Напр, имеется т-т выступления депутата Думы и требуется оценить, насколько оно агрессивно. Прежде всего для решения этой задачи должна быть составлена категория агрессивно окрашенной лексики. После этого мы можем сравнить т-т выступления нашего депутата с выступлениями др и сказать, кто из них агрессивнее. Для оценки степени агрессивности выступления потребуется нек норма, своеобразная нулевая отметка агрессивности. Мы получим ее, если выясним относит частоту употребления агрессивно окрашенных слов средним носителем рус яз. Помощь в этом могут оказать частотные словари. Сравнивая относительную частоту употр-я агрессивно окрашенной лексики в выступлении депутата с частотой ее употр-я средним носителем рус яз мы как раз и можем сделать вывод о степени агрессивности. Небольшие отклонения частот в бол/мен сторону м б следствием случайных колебаний. На вопрос о значимости отклонения частот позволяет ответить статистическая оценка, известная под названием z-score и вычисляемая по формуле (N-E)/(стандартное отклонение), где N - количество слов данной категории, реально встретившихся в тексте, а E - ожидаемое число вхождений слов данной категории в текст. Величина E вычисляется путем умножения нормальной частоты категории на число слов в анализируемом тексте.

К середине 50-х годов исследователи стали все больше уделять внимания не простому наличию/отсутствию категорий в т-те, а связям м/у категориями. Для этого обращают внимание на совместную встречаемость (cooccurence) слов разл категорий. Например, для каждого предл-я т-та мы м выяснить, слова каких категорий в нем встречаются. После этого легко подсчитать обычн коэффициент корреляции, который даст нам силу связи между категориями и знак этой связи. Может оказаться, что для нек категорий наблюдается тенденция их совместного употр-я, а для других - наоборот. В нек случаях это м б отражением сознательной позиции автора статьи, а в нек - связью на уровне подсознания.

Ценность м-да анализа т-тов очевидна, т.к. позв-т на основе формал м-дов извлекать из массивов текстов содержат инфу. М-д нахождения контекстов употр-я слов (collocations) допускает дальнейшее развитие. Выбрав предложения, в кот встречается конкр слово или категория, мы получили нек подвыборку т-та, к кот в свою очередь применимы все м-ды КА. Т.е. контексты употр-я слов и категорий в свою очередь м б подвергнуты КА - выяснению простых частот категорий, относит частот, оценок категорий относительно нормы и т.д.

Если выразиться образно, то контекстный анализ позволяет выделить в тексте несколько тематических нитей и анализировать их отдельно.

Очевиден огромный потенциал контекстного анализа при мониторинге больших объемов информации, так как он позволяет полностью автоматизировать весь процесс сбора инфы.

Исп-е при КА опр набора категорий задает концептуальную сетку, в терминах кот анализир-ся т-т. От того, насколько удачен набор исп-х категорий, зависит кач-во результатов анализа. Поэтому исследователей давно интересовала задача автоматической категоризации слов т-та, т.е. выделение обсуждаемых в нем тем.

Б предложены ряд подходов для решения этой задачи. Следует отметить, что автоматическая категоризация возможна лишь в том случае, если объем анализируемых текстов достаточно велик.






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных