Главная

Популярная публикация

Научная публикация

Случайная публикация

Обратная связь

ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:






Общая характеристика корпуса




 

Корпус текстов — это такая коллекция, в которой тексты категоризованы как со стороны интегральных характеристик каждого из них (например, жанровых), так и со стороны специфических характеристик раз­личных единиц его организации (лексемы, словофор­мы, морфемы и т. п.). Подобная характеризация позво­ляет вести развернутый анализ различного рода зави­симостей в текстах некоторой области. Кроме того, подобная коллекция должна быть организована в виде некоторой базы данных. Это облегчает ее практическое использование и научный анализ.

В настоящей работе представлены некоторые ре­зультаты работы по созданию, категоризации и анали­зу «Компьютерного корпуса газетных текстов русско­го языка конца 20-го века», подготовленного в течение 2000 — 2002 гг. в Лаборатории общей и компьютерной лексикологии и лексикографии филологического факуль­тета МГУ по грантам РФФИ 00-07-90007 и 01-07-90386. В ходе выполнения данного проекта реализована се­рия основных задач построения и анализа базы дан­ных газетного материала в интересах получения объек­тивной картины состояния современного русского га­зетного языка (а отчасти и картины состояния всего языка в целом, если иметь в виду то, что в наборе га­зетных жанров присутствуют и некоторые жанры ос­тальных родов словесности). В первую очередь, на материале данного корпуса могут быть выявлены ак­туальные для современного русского языка процессы в его лексической и словообразовательной системе2. Для этого был осуществлен подбор обширного газет-

 

1 Настоящее исследование выполнено при финансовой под­держке фонда РФФИ (гранты 01-07-90386 и 02-06-80435).

2 С возможностями анализа материала корпуса, например в интересах неодериватологии и автоматического распознавания

различных типов текстов, см. [Кукушкина и др., 2007; Поликарпов, 2007; Поликарпов, в печати; Polikarpov, 2008].

 

 

ного материала для корпуса (тексты общим объемом более 11 млн словоупотреблений) на основе принци­пов включения в него полных номеров 13 российских газет на русском языке за 1994—1997 гг., представлен­ности в нем ежедневных и неежедневных («МН», «Новая газета», «АиФ»), «левых» («Завтра», «Правда», «Правда-5») и «правых», центральных и местных, об­щих и профессионально ориентированных («Литера­турная газета») газет. Эти принципы позволяют полу­чить относительно объективную и сбалансированную картину соотношения в газетном материале текстов различного типа, их единиц и отношений между ними. В том числе это обеспечивает возможность анализа в дальнейшем не только общих для всего газетного язы­ка характеристик, но и возможность анализа жанро­вой специфики представленности в нем лексико-фразеологической, грамматической и иной информации.

В равной мере на этом материале могут рассмат­риваться вопросы современной политической истории, социологии, социальной психологии, контент-анализа, теории рекламы и др. Основой для этого являются те словари, индексы и конкордансы, которые строятся из материала корпуса с использованием специализиро­ванного программного инструментария.

Основное направление использования и развития данных этого корпуса — системный анализ на этом материале новой русской лексики [Поликарпов, в печа­ти; Polikarpov, 2008], а также анализ связи различных системных характеристик русских текстов (морфологи­ческих, морфемных, лексических и т. п.) с их жанровой, тематической, хронологической и иной принадлежно­стью, типом автора (например, по полу [Кукушкина и др., 2007]; см. также [Виноградова и др., 2001].

Корпус управляется СУБД, построенной на основе системы «Диктум-1» (разработанной в Лаборатории об­щей и компьютерной лексикологии и лексикографии МГУ). С помощью этой системы тексты и единицы кор­пуса автоматически и полуавтоматически маркируются различного рода маркерами: тексты (и, соответственно, каждое их словоупотребление) — маркерами газеты-источника, объема текста, его жанра, рубрики, даты публикации и т. п.; словоупотребления — маркерами грамматических, лексических, морфемных и иных ка­тегорий. Разработка и реализация на материале корпу­са принципов жанровой классификации газетных тек­стов (включая типизацию жанров, а также определе­ние характеристических признаков различных типовых жанров) позволила выявить профиль распределения

 

 

 

объемов текстов разного жанрового и источникового состава и особенностей употребления в них единиц.

Проведенная автоматическая лемматизация и мор­фологическая квалификация словоупотреблений корпу­са (с последующими контролирующими процедурами), а также морфемная сегментация словоформ и лексем позволила автоматически получить для него алфавитно-частотные и частотно-распределительные словари сло­воформ, лемм, корней и морфемных моделей.

В составе этого Большого газетного корпуса нахо­дится часть, которая исторически раньше всего была сформирована и была наиболее подробно охарактери­зована со стороны квалификации лексем и словоформ, реализуемых в ее текстах. Эту часть мы называем Ядерный газетный корпус. Объем Ядерного корпуса — ок. 1 млн 350 тыс. словоупотреблений.

Общая картина источникового устройства Большо­го корпуса выглядит следующим образом. Всего в кор­пусе 23 110 текстов по полным номерам 13 разных российских газет на русском языке.

Ниже приводится табл. 1 по объемным характери­стикам разных привлеченных газет.

Таблица 1






Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2024 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных