- •6. Квантитативная(количественная) лингвистика, ее лингвистические и математические основания. Структурно-вероятностная модель языка и ее приложения
- •Основные области приложения структурно-вероятностной модели языка
- •Исследование стилевых особенностей текстов количественными методами: грамматические характеристики текстов.
- •1) Доли предложений разной модальности в разных стилях.
- •2) Доли предложений разного состава в разных стилях.
- •Количественные методы в стиховедении: исследование рифмы. Количественные параметры рифмы, их эволюция.
- •10. Проблемы количественных методов атрибуции текста.
10. Проблемы количественных методов атрибуции текста.
К настоящему времени накоплен большой опыт в применении статистического метода для решения проблемы спорного авторства (атрибуции) текстов; в сущности, этот метод стал хрестоматийным, причем не только в филологии (текстологии, источниковедении, стилистике), но и в криминалистике, медицинской диагностике, социальной психологии.
Атрибуция текстов – установление авторства текста, к-й является анонимным или псевдонимным(чат).
Авторизация включает как литературную, так и лингвистическую составляющую. Традиционные приемы, разработанные филологией: приемы содержательно-стилистического анализа, тк основные показатели – содержание и стилистика.
Может ли данный человек написать текст такого содержания?
В этом содержании имеются ли конкретные факты которые можно сопоставить с биогр данного автора?
Общий стиль. Использует ли он различные ритор приемы – вопрос, антитеза, к-е можно обнаружить в данном тексте. Есть ли типичные для него обороты речи.
В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста. К субъективным факторам он относит: а) субъективно-коммерческие; б) субъективно-конъюнктурные; в) субъективно-эстетические; г) субъективно-психологические; д) субъективно-идеологические факторы. Есть и объективные факторы: а) документально-рукописные (археологические); б) исторические (биографии, свидетельства современников); в) историко-идеологические и сопоставительно-идеологические; г) историко-стилистические; д) художественно-стилистические; е) лингвостилистические. Однако чисто филологическое направление авторизации не позволяет построить объективные критерии анализа и атрибуции текста. Разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы.
Перспектива объективизации экспертного знания была обнаружена в использовании количественных, статистических методов анализа текста.
Способы, используемые в прикл линг-ке, строгие, допускают формализацию. Самые частые колчественные исслед-я опираются на знание статистических норм или вероятностных характеристик текста.
1. Частотные словари (словоформ, лемм – нач форм). Устанавливается абсолютная частота(количество вхождений единицы в текст) и относительная частота(отношение абсолютной частоты единицы к общему объему текста). Относительная частота – нормализация количественной характеристики.
Каждый частотный словарь делится на неск-ко зон:
1. Самые частотные. (как правило, служебные, самые короткие)
2. Частые знаменательные слова
3. Редкие слова(1-2 р в тексте)
Точно так же могут быть получены вероятностные оценки частоты последовательностей букв, синтаксических структур, предложений разной длины.
Сопоставляется спорный текст и уже имеющий атрибуцию. Впервые – 1880е гг Диттенбергер, атрибуция «диалогов» Платона. Он исследовал частоты служебных слов в подлиннике и спорных текстах. Тк частоты служебных слов зависят не от тематики текста, а от общего стиля текста.
1915- работа Морозова посвященная частотности ед-ц языка в текстах и возм-ти их использовать для атрибуции.
Атрибуция Тихого Дона – самая известная атрибуция, 89 г.
признаки:
Осуществление выборки с одной стороны из нескольких произведений Шолохова и автора чье авторство подозревалось – Ф. Крюков.
В этих выборках не должны были встречаться эл-ты прямой речи
Нельзя использовать не «собственно прямую речь» - где автор передает мысли, чувства героев, совмещая свою речь с речью персонажей.
При выборках исп-ся разные части текстов – начало, средняя, заключительная
Организация выборки – либо случайным образом, либо структурированной выборкой – чтобы в нее обязательно вошли разные части текста.
Что сравнивали:
Длина предложений, количество символов, число текстоформ, число слогов
Длина слов в символах
Статистика классов слов, те частей речи.
Частоты разных начал и концов текста.
Вся выборка – 1000 предложений. Выводы: по всем частотным показателям тексты Тиххого Дона ближе к Шолоховским.
Длина предложения: Крюков – 13, 9
Шолохов – 12,9
Тихий Дон – 12,4