Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Основы научных исследований (методы).docx
Скачиваний:
4
Добавлен:
29.08.2019
Размер:
109.15 Кб
Скачать

§ 5. Дистрибутивно-статистический анализ

Только что описанная нами в предыдущем параграфе методика

хорошо коррелирует с применением статистики, а следовательно,

и с другими отраслями прикладной лингвистики, а не только с лек-

сикографией.

Лингвистическая статистика - отрасль языкознания, занимаю-

щаяся изучением методов раскрытия закономерностей, свойствен-

ных большим совокупностям однородных объектов на основании

их выборочного обследования. Свои важнейшие понятия лингви-

стическая статистика заимствует у математической статистики. Су-

щественно обратить внимание на то, что просто количественный

подсчет того или иного явления в нескольких или даже в большом

числе текстов статистическим не является. Корректное примене-

ние статистики требует серьезного с ней ознакомления.

Основным методом применения статистики в сочетании с дис-

трибутивным анализом следует признать дистрибутивно-статисти-

ческий анализ, как он представлен в трудах А.Я. Шайкевича и

Ю.Д. Апресяна. Их методика имеет много общего с валентностным

анализом, как он разработан Г. Хельбигом, а в Ленинграде —священ специальный параграф, а здесь достаточно указать, что тер-

мин ≪валентность≫ тоже означает сочетательную способность линг-

вистического элемента.

Дистрибутивно-статистический анализ в том виде, как его раз-

работал и применяет А.Я. Шайкевич, ≪есть сумма формальных ал-

горитмических процедур, направленных на описание языка и опи-

рающихся только на распределение (дистрибуцию) заданных эле-

ментов в тексте. Под заданными элементами могут пониматься

буквы (и другие графические символы), цепочки букв между про-

белами (слова), цепочки слов между более крупными пробелами

(высказывания), короче —любые объекты в тексте, непосредствен-

но доступные нашему восприятию. Сам анализ при этом носит не

жестко-детерминистский, а статистический характер, постоянно ис-

пользует количественную информацию о встречаемости элементов

в тексте≫ (Шайкевич, 1976:355).

Важно подчеркнуть, что в своем анализе А.Я. Шайкевич убеди-

тельно показывает следующее: скрытое или явное предположение

о том, что текст или какие-то явления в тексте можно представить

как случайный процесс, для лингвостатистики неплодотворно.

Шайкевич доказывает, что основные перспективы лингвостатисти-

ки, если она хочет исследовать особенности структуры текста или

структуры языка, связаны с поисками расхождений между теорети-

ческими данными (чаще всего они сравниваются с нормальным

распределением, или распределением Пуассона) и эмпирически-

ми данными.

Объяснять здесь сущность этих понятий мы не сможем за не-

достатком места. Это слишком отвлекло бы нас от основного изло-

жения. Но тому, кто будет пользоваться методикой дистрибутивно-

статистического анализа, необходимо проработать не только рабо-

ты самого Шайкевича, но и какой-либо из современных учебников

по статистике.

Здесь мы ограничимся конкретным примером, иллюстрирую-

щим предложенную методику. Шайкевич исследовал распределе-

ние относительной частоты неопределенного артикля в речи пер-

сонажей У. Шекспира и показал неоднородность этого распределе-

ния для двух, выделившихся именно благодаря этому анализу,

групп персонажей. У слуг, горожан и носителей комического нача-

ла (шутов, остряков, глупцов) отмечено повышение частоты неоп-

ределенного артикля. И напротив, у героев ≪серьезных≫ и высоко

стоящих на социальной лестнице частота неопределенного артик-

ля понижается.

42

Таким образом, метод может быть использован в стилистике,

но, разумеется, пригоден и для других целей. В информатике, на-

пример, его применяют для выделения ключевых слов.