
- •I. Язык сми как объект междисциплинарного исследования..............................................................................25
- •II. Проблемы функционирования языка сми.........327
- •III. Язык конкретных каналов коммуникации.....469
- •1.Знаковая система. Гамма типов
- •2. Знак. Треугольник Фреге
- •3. Нормализация - «лямбда»- и «йота» операторы
- •4. Иерархическое строение
- •5. Диапазон знаковости
- •II. Применение семиотического аппарата к массовой коммуникации
- •III. Рамка соотнесенности с культурой, или культурная рамка
- •IV. Прагматика знака
- •V. Знаки как средство манипуляции
- •1. Предмет и задачи герменевтики. Исторические типы герменевтики
- •2. Герменевтические принципы и категории исследования текста
- •3. Возможность применения герменевтики к языку сми
- •4. Язык сми и новые проблемы герменевтики
- •II. Проблемы функционирования языка сми
- •Развертывание в тексте одной доминирующей модели
- •Параллельное развертывание в теше двух-трех моделей
- •Использование в тексте разнообразным моделей
- •Акцентирование метафоры в газетном тексте
- •III. Язык конкретных каналов коммуникации
- •Общая характеристика корпуса
- •Соотношение источников по их объемам в Большом газетном корпусе русского языка
- •2. Система маркировки газетным текстов маркерами конкретный жанров и жанровых типов
- •Автоматизированный анализ лексических, морфологических и орфемньи характеристик газетных текстов различных жанров.
- •I.Модель структуры опосредованной коммуникации
- •II. Категориальная структура восприятия рекламным текстов
- •III. Этнокультурный фактор восприятия рекламных сообщений
- •IV. Практикумы
- •О работе в современных популярных журналах: с точки зрения практики
- •111399, Москва, ул. Мартеновская, 3.
- •6 10033, Г. Киров, ул. Московская, 122
Общая характеристика корпуса
Корпус текстов — это такая коллекция, в которой тексты категоризованы как со стороны интегральных характеристик каждого из них (например, жанровых), так и со стороны специфических характеристик различных единиц его организации (лексемы, словоформы, морфемы и т. п.). Подобная характеризация позволяет вести развернутый анализ различного рода зависимостей в текстах некоторой области. Кроме того, подобная коллекция должна быть организована в виде некоторой базы данных. Это облегчает ее практическое использование и научный анализ.
В настоящей работе представлены некоторые результаты работы по созданию, категоризации и анализу «Компьютерного корпуса газетных текстов русского языка конца 20-го века», подготовленного в течение 2000 — 2002 гг. в Лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ по грантам РФФИ 00-07-90007 и 01-07-90386. В ходе выполнения данного проекта реализована серия основных задач построения и анализа базы данных газетного материала в интересах получения объективной картины состояния современного русского газетного языка (а отчасти и картины состояния всего языка в целом, если иметь в виду то, что в наборе газетных жанров присутствуют и некоторые жанры остальных родов словесности). В первую очередь, на материале данного корпуса могут быть выявлены актуальные для современного русского языка процессы в его лексической и словообразовательной системе2. Для этого был осуществлен подбор обширного газет-
1 Настоящее исследование выполнено при финансовой поддержке фонда РФФИ (гранты 01-07-90386 и 02-06-80435).
2 С возможностями анализа материала корпуса, например в интересах неодериватологии и автоматического распознавания
различных типов текстов, см. [Кукушкина и др., 2007; Поликарпов, 2007; Поликарпов, в печати; Polikarpov, 2008].
540
ного материала для корпуса (тексты общим объемом более 11 млн словоупотреблений) на основе принципов включения в него полных номеров 13 российских газет на русском языке за 1994—1997 гг., представленности в нем ежедневных и неежедневных («МН», «Новая газета», «АиФ»), «левых» («Завтра», «Правда», «Правда-5») и «правых», центральных и местных, общих и профессионально ориентированных («Литературная газета») газет. Эти принципы позволяют получить относительно объективную и сбалансированную картину соотношения в газетном материале текстов различного типа, их единиц и отношений между ними. В том числе это обеспечивает возможность анализа в дальнейшем не только общих для всего газетного языка характеристик, но и возможность анализа жанровой специфики представленности в нем лексико-фразеологической, грамматической и иной информации.
В равной мере на этом материале могут рассматриваться вопросы современной политической истории, социологии, социальной психологии, контент-анализа, теории рекламы и др. Основой для этого являются те словари, индексы и конкордансы, которые строятся из материала корпуса с использованием специализированного программного инструментария.
Основное направление использования и развития данных этого корпуса — системный анализ на этом материале новой русской лексики [Поликарпов, в печати; Polikarpov, 2008], а также анализ связи различных системных характеристик русских текстов (морфологических, морфемных, лексических и т. п.) с их жанровой, тематической, хронологической и иной принадлежностью, типом автора (например, по полу [Кукушкина и др., 2007]; см. также [Виноградова и др., 2001].
Корпус управляется СУБД, построенной на основе системы «Диктум-1» (разработанной в Лаборатории общей и компьютерной лексикологии и лексикографии МГУ). С помощью этой системы тексты и единицы корпуса автоматически и полуавтоматически маркируются различного рода маркерами: тексты (и, соответственно, каждое их словоупотребление) — маркерами газеты-источника, объема текста, его жанра, рубрики, даты публикации и т. п.; словоупотребления — маркерами грамматических, лексических, морфемных и иных категорий. Разработка и реализация на материале корпуса принципов жанровой классификации газетных текстов (включая типизацию жанров, а также определение характеристических признаков различных типовых жанров) позволила выявить профиль распределения
541
объемов текстов разного жанрового и источникового состава и особенностей употребления в них единиц.
Проведенная автоматическая лемматизация и морфологическая квалификация словоупотреблений корпуса (с последующими контролирующими процедурами), а также морфемная сегментация словоформ и лексем позволила автоматически получить для него алфавитно-частотные и частотно-распределительные словари словоформ, лемм, корней и морфемных моделей.
В составе этого Большого газетного корпуса находится часть, которая исторически раньше всего была сформирована и была наиболее подробно охарактеризована со стороны квалификации лексем и словоформ, реализуемых в ее текстах. Эту часть мы называем Ядерный газетный корпус. Объем Ядерного корпуса — ок. 1 млн 350 тыс. словоупотреблений.
Общая картина источникового устройства Большого корпуса выглядит следующим образом. Всего в корпусе 23 110 текстов по полным номерам 13 разных российских газет на русском языке.
Ниже приводится табл. 1 по объемным характеристикам разных привлеченных газет.
Таблица 1