- •Структура научного познания и познавательные средства науки
- •Методология - Метод — Методика
- •Направления в современном языкознании
- •История системного подхода
- •Адаптивные функциональные системы. Среда
- •Полевая структура и нечеткие множества
- •Тезаурусный подход
- •Функции системы
- •11. Описательный метод
- •12. Сравнительно-исторический метод: внешняя реконструкция и внутренняя реконструкция
- •15. Гипотетико-дедуктивный метод
- •16. Метод оппозиций
- •17. Дистрибутивный анализ
- •18. Дистрибутивно-статистический анализ
- •19. Валентностный анализ
- •20. Контекстологический анализ
- •21. Компонентный анализ
- •22. Использование компьютеров в лингвистических исследованиях
- •23. Метод анализа синтаксических конструкций по нс
- •24. Трансформационный метод
- •25. Метод семантического поля
- •26. Количественные методы.
- •27. М6етоды психолингвистики
- •29. Методология и методы лингвокультурологического анализа.
- •30. Метод лингвокогнитивного исследования.
- •31. Принципы семантико-когнитивного анализа
- •32. Концептуальный анализ как метод лингвистических исследований
18. Дистрибутивно-статистический анализ
Только что описанная нами в предыдущем параграфе методика хорошо коррелирует с применением статистики, а следовательно, и с другими отраслями прикладной лингвистики, а не только с лексикографией.
Лингвистическая статистика - отрасль языкознания, занимающаяся изучением методов раскрытия закономерностей, свойственных большим совокупностям однородных объектов на основании их выборочного обследования. Свои важнейшие понятия лингвистическая статистика заимствует у математической статистики. Существенно обратить внимание на то, что просто количественный подсчет того или иного явления в нескольких или даже в большом числе текстов статистическим не является. Корректное применение статистики требует серьезного с ней ознакомления.
Основным методом применения статистики в сочетании с дистрибутивным анализом следует признать дистрибутивно-статистический анализ, как он представлен в трудах А.Я. Шайкевича и Ю.Д. Апресяна. Их методика имеет много общего с валентностным анализом, как он разработан Г. Хельбигом, а в Ленинграде — Б.М. Лейкиной. Валентностному анализу будет в дальнейшем посвящен специальный параграф, а здесь достаточно указать, что термин «валентность» тоже означает сочетательную способность лингвистического элемента.
Дистрибутивно-статистический анализ в том виде, как его разработал и применяет А.Я. Шайкевич, «есть сумма формальных алгоритмических процедур, направленных на описание языка и опирающихся только на распределение (дистрибуцию) заданных элементов в тексте. Под заданными элементами могут пониматься буквы (и другие графические символы), цепочки букв между пробелами (слова), цепочки слов между более крупными пробелами (высказывания), короче —любые объекты в тексте, непосредственно доступные нашему восприятию. Сам анализ при этом носит не жестко-детерминистский, а статистический характер, постоянно использует количественную информацию о встречаемости элементов в тексте» (Шайкевич, 1976:355).
Важно подчеркнуть, что в своем анализе А.Я. Шайкевич убедительно показывает следующее: скрытое или явное предположение о том, что текст или какие-то явления в тексте можно представить как случайный процесс, для лингвостатистики неплодотворно. Шайкевич доказывает, что основные перспективы лингвостатистики, если она хочет исследовать особенности структуры текста или структуры языка, связаны с поисками расхождений между теоретическими данными (чаще всего они сравниваются с нормальным распределением, или распределением Пуассона) и эмпирическими данными.
Объяснять здесь сущность этих понятий мы не сможем за недостатком места. Это слишком отвлекло бы нас от основного изложения. Но тому, кто будет пользоваться методикой дистрибутивностатистического анализа, необходимо проработать не только работы самого Шайкевича, но и какой-либо из современных учебников по статистике.
Здесь мы ограничимся конкретным примером, иллюстрирующим предложенную методику. Шайкевич исследовал распределение относительной частоты неопределенного артикля в речи персонажей У. Шекспира и показал неоднородность этого распределения для двух, выделившихся именно благодаря этому анализу, групп персонажей. У слуг, горожан и носителей комического начала (шутов, остряков, глупцов) отмечено повышение частоты неопределенного артикля. И напротив, у героев «серьезных» и высоко стоящих на социальной лестнице частота неопределенного артикля понижается.
Таким образом, метод может быть использован в стилистике, но, разумеется, пригоден и для других целей. В информатике, например, его применяют для выделения ключевых слов.
