- •Предисловие
- •Глава I. Интеграция в науке.
- •§ 1. Интеграция и дифференциация в науке
- •§ 2. Методология - Метод — Методика
- •§ 3. Направления в современном языкознании
- •Глава II. Системный подход
- •§ 1. История системного подхода
- •§ 2. Адаптивные функциональные системы. Среда
- •§ 3. Полевая структура и нечеткие множества
- •§ 4. Тезаурусный подход
- •§ 5. Функции системы
- •Глава III. Методы и процедуры
- •§ 1. Выбор методики
- •§ 2. Гипотетико-дедуктивный метод
- •§ 3. Метод оппозиций
- •§ 4. Дистрибутивный анализ
- •§ 5. Дистрибутивно-статистический анализ
- •§ 6. Валентностный анализ
- •§ 7. Контекстологический анализ
- •§ 8. Компонентный анализ
- •§ 9. Использование компьютеров в лингвистических исследованиях
- •Глава IV. Выбор и обоснование темы
- •§ 1. Требования, предъявляемые к научному исследованию. Обоснование темы
- •§ 2. Выбор темы и объекта исследования
- •§ 3. Название темы
- •Глава V. Планирование работы. Источники
- •§ 1. Планирование
- •§ 2. Критерии отбора материала
- •§ 3. Источники фактического материала
- •§ 4. Интуиция и воображение
- •§ 5. Композиция работы
- •Глава VI. Метаязык исследования
- •§ 1. Общее понятие о метаязыке
- •§ 2. Терминология
- •§ 3. Требования к термину
- •§ 4. Недостатки терминологии и их причины
- •§ 5. Советы начинающим
- •Глава VII. Графический метаязык
- •§ 1. Буквенная символика
- •Значение
- •Указывает или называет
- •§ 2. Схемы
- •§ 3. Таблицы и графики
- •§ 4. Графика, заимствованная в математике
- •§ 5. Графы
- •4 5 6 Последнее
- •§ 6. Векторный анализ
- •Глава VIII. Стиль изложения
- •§ 1. Функциональный стиль научной прозы
- •§ 2. Синтаксис научного текста
- •§ 3. Лексико-фразеологическое варьирование
- •§ 4. Определение
- •Глава IX. Накопление теоретической информации. Библиография
- •§ 1. Ознакомление с теоретической литературой. Практические советы
- •§ 2. Библиографический аппарат
- •Аппарат.
- •§ 1. История вопроса
- •§ 2. Ссылочный аппарат. Цитирование
- •§ 3. Преемственность
- •8,56 Учиздл. Тираж 9000 экз Заказ №1099 ЦенаЗОк
§ 5. Дистрибутивно-статистический анализ
Только что описанная нами в предыдущем параграфе методика хорошо коррелирует с применением статистики, а следовательно, и с другими отраслями прикладной лингвистики, а не только с лексикографией.
Лингвистическая статистика - отрасль языкознания, занимающаяся изучением методов раскрытия закономерностей, свойственных большим совокупностям однородных объектов на основании их выборочного обследования. Свои важнейшие понятия лингвистическая статистика заимствует у математической статистики. Существенно обратить внимание на то, что просто количественный подсчет того или иного явления в нескольких или даже в большом числе текстов статистическим не является. Корректное применение статистики требует серьезного с ней ознакомления.
Основным методом применения статистики в сочетании с дистрибутивным анализом следует признать дистрибутивно-статистический анализ, как он представлен в трудах А.Я. Шайкевича и Ю.Д. Апресяна. Их методика имеет много общего с валентностным анализом, как он разработан Г. Хельбигом, а в Ленинграде —
41
Б.М. Лейкиной. Валентностному анализу будет в дальнейшем посвящен специальный параграф, а здесь достаточно указать, что термин «валентность» тоже означает сочетательную способность лингвистического элемента.
Дистрибутивно-статистический анализ в том виде, как его разработал и применяет А.Я. Шайкевич, «есть сумма формальных алгоритмических процедур, направленных на описание языка и опирающихся только на распределение (дистрибуцию) заданных элементов в тексте. Под заданными элементами могут пониматься буквы (и другие графические символы), цепочки букв между пробелами (слова), цепочки слов между более крупными пробелами (высказывания), короче —любые объекты в тексте, непосредственно доступные нашему восприятию. Сам анализ при этом носит не жестко-детерминистский, а статистический характер, постоянно использует количественную информацию о встречаемости элементов в тексте» (Шайкевич, 1976:355).
Важно подчеркнуть, что в своем анализе А.Я. Шайкевич убедительно показывает следующее: скрытое или явное предположение о том, что текст или какие-то явления в тексте можно представить как случайный процесс, для лингвостатистики неплодотворно. Шайкевич доказывает, что основные перспективы лингвостатистики, если она хочет исследовать особенности структуры текста или структуры языка, связаны с поисками расхождений между теоретическими данными (чаще всего они сравниваются с нормальным распределением, или распределением Пуассона) и эмпирическими данными.
Объяснять здесь сущность этих понятий мы не сможем за недостатком места. Это слишком отвлекло бы нас от основного изложения. Но тому, кто будет пользоваться методикой дистрибутивно-статистического анализа, необходимо проработать не только работы самого Шайкевича, но и какой-либо из современных учебников по статистике.
Здесь мы ограничимся конкретным примером, иллюстрирующим предложенную методику. Шайкевич исследовал распределение относительной частоты неопределенного артикля в речи персонажей У. Шекспира и показал неоднородность этого распределения для двух, выделившихся именно благодаря этому анализу, групп персонажей. У слуг, горожан и носителей комического начала (шутов, остряков, глупцов) отмечено повышение частоты неопределенного артикля. И напротив, у героев «серьезных» и высоко стоящих на социальной лестнице частота неопределенного артикля понижается. 42
Таким образом, метод может быть использован в стилистике, но, разумеется, пригоден и для других целей. В информатике, например, его применяют для выделения ключевых слов.
