Общая характеристика корпуса

⇐ Предыдущая 90 91 92 93 949596 97 98 99 Следующая ⇒

Корпус текстов — это такая коллекция, в которой тексты категоризованы как со стороны интегральных характеристик каждого из них (например, жанровых), так и со стороны специфических характеристик различных единиц его организации (лексемы, словоформы, морфемы и т. п.). Подобная характеризация позволяет вести развернутый анализ различного рода зависимостей в текстах некоторой области. Кроме того, подобная коллекция должна быть организована в виде некоторой базы данных. Это облегчает ее практическое использование и научный анализ.

В настоящей работе представлены некоторые результаты работы по созданию, категоризации и анализу «Компьютерного корпуса газетных текстов русского языка конца 20-го века», подготовленного в течение 2000 — 2002 гг. в Лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ по грантам РФФИ 00-07-90007 и 01-07-90386. В ходе выполнения данного проекта реализована серия основных задач построения и анализа базы данных газетного материала в интересах получения объективной картины состояния современного русского газетного языка (а отчасти и картины состояния всего языка в целом, если иметь в виду то, что в наборе газетных жанров присутствуют и некоторые жанры остальных родов словесности). В первую очередь, на материале данного корпуса могут быть выявлены актуальные для современного русского языка процессы в его лексической и словообразовательной системе². Для этого был осуществлен подбор обширного газет-

¹ Настоящее исследование выполнено при финансовой поддержке фонда РФФИ (гранты 01-07-90386 и 02-06-80435).

² С возможностями анализа материала корпуса, например в интересах неодериватологии и автоматического распознавания

различных типов текстов, см. [Кукушкина и др., 2007; Поликарпов, 2007; Поликарпов, в печати; Polikarpov, 2008].

ного материала для корпуса (тексты общим объемом более 11 млн словоупотреблений) на основе принципов включения в него полных номеров 13 российских газет на русском языке за 1994—1997 гг., представленности в нем ежедневных и неежедневных («МН», «Новая газета», «АиФ»), «левых» («Завтра», «Правда», «Правда-5») и «правых», центральных и местных, общих и профессионально ориентированных («Литературная газета») газет. Эти принципы позволяют получить относительно объективную и сбалансированную картину соотношения в газетном материале текстов различного типа, их единиц и отношений между ними. В том числе это обеспечивает возможность анализа в дальнейшем не только общих для всего газетного языка характеристик, но и возможность анализа жанровой специфики представленности в нем лексико-фразеологической, грамматической и иной информации.

В равной мере на этом материале могут рассматриваться вопросы современной политической истории, социологии, социальной психологии, контент-анализа, теории рекламы и др. Основой для этого являются те словари, индексы и конкордансы, которые строятся из материала корпуса с использованием специализированного программного инструментария.

Основное направление использования и развития данных этого корпуса — системный анализ на этом материале новой русской лексики [Поликарпов, в печати; Polikarpov, 2008], а также анализ связи различных системных характеристик русских текстов (морфологических, морфемных, лексических и т. п.) с их жанровой, тематической, хронологической и иной принадлежностью, типом автора (например, по полу [Кукушкина и др., 2007]; см. также [Виноградова и др., 2001].

Корпус управляется СУБД, построенной на основе системы «Диктум-1» (разработанной в Лаборатории общей и компьютерной лексикологии и лексикографии МГУ). С помощью этой системы тексты и единицы корпуса автоматически и полуавтоматически маркируются различного рода маркерами: тексты (и, соответственно, каждое их словоупотребление) — маркерами газеты-источника, объема текста, его жанра, рубрики, даты публикации и т. п.; словоупотребления — маркерами грамматических, лексических, морфемных и иных категорий. Разработка и реализация на материале корпуса принципов жанровой классификации газетных текстов (включая типизацию жанров, а также определение характеристических признаков различных типовых жанров) позволила выявить профиль распределения

объемов текстов разного жанрового и источникового состава и особенностей употребления в них единиц.

Проведенная автоматическая лемматизация и морфологическая квалификация словоупотреблений корпуса (с последующими контролирующими процедурами), а также морфемная сегментация словоформ и лексем позволила автоматически получить для него алфавитно-частотные и частотно-распределительные словари словоформ, лемм, корней и морфемных моделей.

В составе этого Большого газетного корпуса находится часть, которая исторически раньше всего была сформирована и была наиболее подробно охарактеризована со стороны квалификации лексем и словоформ, реализуемых в ее текстах. Эту часть мы называем Ядерный газетный корпус. Объем Ядерного корпуса — ок. 1 млн 350 тыс. словоупотреблений.

Общая картина источникового устройства Большого корпуса выглядит следующим образом. Всего в корпусе 23 110 текстов по полным номерам 13 разных российских газет на русском языке.

Ниже приводится табл. 1 по объемным характеристикам разных привлеченных газет.

Таблица 1

⇐ Предыдущая 90 91 92 93 949596 97 98 99 Следующая ⇒

Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2026 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных