Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Арнольд Основы научн.исс-й 1991.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
996.35 Кб
Скачать

§ 5. Дистрибутивно-статистический анализ

Только что описанная нами в предыдущем параграфе методика хорошо коррелирует с применением статистики, а следовательно, и с другими отраслями прикладной лингвистики, а не только с лек­сикографией.

Лингвистическая статистика - отрасль языкознания, занимаю­щаяся изучением методов раскрытия закономерностей, свойствен­ных большим совокупностям однородных объектов на основании их выборочного обследования. Свои важнейшие понятия лингви­стическая статистика заимствует у математической статистики. Су­щественно обратить внимание на то, что просто количественный подсчет того или иного явления в нескольких или даже в большом числе текстов статистическим не является. Корректное примене­ние статистики требует серьезного с ней ознакомления.

Основным методом применения статистики в сочетании с дис­трибутивным анализом следует признать дистрибутивно-статисти­ческий анализ, как он представлен в трудах А.Я. Шайкевича и Ю.Д. Апресяна. Их методика имеет много общего с валентностным анализом, как он разработан Г. Хельбигом, а в Ленинграде —

41

Б.М. Лейкиной. Валентностному анализу будет в дальнейшем по­священ специальный параграф, а здесь достаточно указать, что тер­мин «валентность» тоже означает сочетательную способность линг­вистического элемента.

Дистрибутивно-статистический анализ в том виде, как его раз­работал и применяет А.Я. Шайкевич, «есть сумма формальных ал­горитмических процедур, направленных на описание языка и опи­рающихся только на распределение (дистрибуцию) заданных эле­ментов в тексте. Под заданными элементами могут пониматься буквы (и другие графические символы), цепочки букв между про­белами (слова), цепочки слов между более крупными пробелами (высказывания), короче —любые объекты в тексте, непосредствен­но доступные нашему восприятию. Сам анализ при этом носит не жестко-детерминистский, а статистический характер, постоянно ис­пользует количественную информацию о встречаемости элементов в тексте» (Шайкевич, 1976:355).

Важно подчеркнуть, что в своем анализе А.Я. Шайкевич убеди­тельно показывает следующее: скрытое или явное предположение о том, что текст или какие-то явления в тексте можно представить как случайный процесс, для лингвостатистики неплодотворно. Шайкевич доказывает, что основные перспективы лингвостатисти­ки, если она хочет исследовать особенности структуры текста или структуры языка, связаны с поисками расхождений между теорети­ческими данными (чаще всего они сравниваются с нормальным распределением, или распределением Пуассона) и эмпирически­ми данными.

Объяснять здесь сущность этих понятий мы не сможем за не­достатком места. Это слишком отвлекло бы нас от основного изло­жения. Но тому, кто будет пользоваться методикой дистрибутивно-статистического анализа, необходимо проработать не только рабо­ты самого Шайкевича, но и какой-либо из современных учебников по статистике.

Здесь мы ограничимся конкретным примером, иллюстрирую­щим предложенную методику. Шайкевич исследовал распределе­ние относительной частоты неопределенного артикля в речи пер­сонажей У. Шекспира и показал неоднородность этого распределе­ния для двух, выделившихся именно благодаря этому анализу, групп персонажей. У слуг, горожан и носителей комического нача­ла (шутов, остряков, глупцов) отмечено повышение частоты неоп­ределенного артикля. И напротив, у героев «серьезных» и высоко стоящих на социальной лестнице частота неопределенного артик­ля понижается. 42

Таким образом, метод может быть использован в стилистике, но, разумеется, пригоден и для других целей. В информатике, на­пример, его применяют для выделения ключевых слов.