- •Практическая арифметика для гуманитариев (?)
- •75 70 82 68 80. Средняя – 75.
- •Способы изучения зависимостей между случайными величинами
- •Пример регрессионной зависимости
- •Частотные словари русского языка
- •Лексическая статистика и авторская лексикография
- •Статистическое исследование словарей
- •Статистика и идиостилистика
- •Объем художественного текста (?)
- •Сопоставление с другими авторами
- •Синтагматические характеристики «частей тела»
- •Статистические методы в социолингвистических исследованиях
- •Обработка статистических результатов в социолингвистике [Беликов, Крысин, 2001]
- •96% Смотрели фильмы на обоих языках
- •3 Группы документов: публичная речь, непубличная речь, речь кино.
- •Гендерные характеристики ряда семантических классов слов [Мухин, 2014]
- •Статистические методы и генезис языка: глоттохронология, циклические процессы в языке
Частотные словари русского языка
История и современные возможности
Частотные словари РЯ
Г. Йоссельсон (1953, Детройт)
Э. А. Штейнфельдт (1963, Таллин)
Л. Н. Засорина (1977, Москва)
Л. Лённгрен (1993, Уппсала)
Основаны на небольших коллекциях (Засорина – на 1 млн слов, т. е. фактически ipm).
Ранее считалось, что для достоверности описания 1600 – 1700 самых частотных слов достаточно корпуса в 400 000 слов.
Отражают русский язык советского периода (Г. Йоссельсон – досоветского).
Возможность ручного снятия омонимии на базе небольшого корпуса.
Л. Н. Засорина (1977)
Разброс частот в разных словарях (пример Ш – Л), ipm
Новый частотный словарь русской лексики С. Шарова – О. Ляшевской
Коллекция НКРЯ
92 млн текстоформ
Статистика по НКРЯ
Количество вхождений
Количество предложений
Количество текстов
Статитистические данные по С.Шарову
Средняя длина слова 5.28 символа.
Средняя длина предложения 10.38 слов.
1000 наиболее частотных лемм покрывает 64.0708% текста.
2000 наиболее частотных лемм покрывают 71.9521% текста.
3000 наиболее частотных лемм покрывают 76.5104% текста.
5000 наиболее частотных лемм покрывают 82.0604% текста.
Проблемы частотных словарей
вопрос воспроизводимости показателей (при сравнении разных корпусов),
несоразмерность частот отдельных слов (частота слова в одном тексте может повлиять на его позицию в частотном списке),
определение позиции менее частотных слов, трудность ранжирования
Проблемы частотных словарей
Частотный список, построенный на основе корпуса, отражает специфику текстов, зависит от дискурса!
Вопрос качества грамматической разметки.
Вопрос размера корпуса:
Количество токенов
Знаки пунктуации
«Орфографические» слова
Цифры, сокращения, дефисные написания
Проблемы лемматизации
Лексические омонимы
Формы мн. ч. существительных
Видовые пары глагола
Возвратные и прямые
Степени сравнения
Варианты написания, в т.ч. прописная/строчная
Грамматические аномалии
… …
Лексическая статистика и авторская лексикография
Вопрос отражения подъязыка в словаре
Авторские словари
Стилистические словари
Макроструктура современных корпусов: вопрос корректного моделирования языка.
Словари языка писателя
Стилевые и частотные словари А. С. Пушкина, Л. Андреева, А. Блока, И. Гончарова, А. Грибоедова, А. Дельвига, Ф. Достоевского, А. Чехова, В. Шукшина, поэзии 1-й пол. ХХ в. …
! Проблема отражения специфики идиостиля.
«Топ» лексической частотности по А. О. Гребенникову
А. П. Чехов: говорить, сказать, один, мочь, знать, глаз, человек, рука, лицо, два, стать, глядеть, думать, большой, жизнь, идти, день, голова, сидеть, видеть, другой, жить, дом, казаться, раз, спать, дело, время, жена, люди, бог, взять…
Л. Н. Андреев (рука, глаз, сказать, говорить, мочь, лицо, другой, знать, голова, отец, люди, человек, стать, жизнь, смотреть, видеть, слово, думать, нога, хотеть , голос, идти, день, казаться, раз, земля, женщина, дом, черный, два, ночь, стоять…
Универсальное и индивидуальное в лексических частотах
Постановка проблемы сопоставительного частотного анализа.
Лексикографирование идиом и прочих неоднословных целостностей
Понятие биграммы (n-граммы). Использование статистических мер.
Статистика встречаемости
Статистические методы
MI (mutual informarion), «коэффициент взаимной информации».
t-score, анализ частоты совместной встречаемости слова и его коллоката.
Log-likelihood (логарифмическая функция правдоподобия) отношение функций правдоподобия, соответствующих двум гипотезам – о случайной и неслучайной природе двусловия.
Критерий χ² (Хи-квадрат), или Критерий Пирсона, употребляемый для проверки гипотезы распределения вероятностей.
… … …
Статистические меры. Мера MI
сравнивает зависимые контекстно-связанные частоты с независимыми, как если бы слова появлялись в тексте совершенно случайно:
MI=log2 , где
MI — объем информации <…>
f(n,c) — частота встречаемости ключевого слова n в паре с коллокатом c;
f(n), f(c) — абсолютные частоты ключевого слова n и слова c в корпусе;
N — общее число словоформ в корпусе.
Если значение MI (n,c) больше 1, тогда данное сочетание слов считается статистически значимым. Вопрос о пороговом значении.
Статистические меры. Мера t-score
учитывает частоту совместной встречаемости слова и коллоката:
t-score = , где
f(n,c) — частота встречаемости ключевого слова n в паре с коллокатом c;
f(n), f(c) — абсолютные частоты ключевого слова n и слова c в корпусе;
N — общее число словоформ в корпусе.
Выделение коллокаций с очень частотными словами (например, служебными). Слова с наибольшим значением t-score оказываются самыми частотными языковыми неоднословными целостностями. Идея стоп-листа.
Статистические меры
коллокации, выделяемые с помощью меры MI, чаще всего являются сложными номинациями (терминами, наименованиями объектов, ключевых для определения предметной области)
критерий t-score направлен, прежде всего, на выделение «устойчивых конструкций», клише и «общеязыковых устойчивых сочетаний» (производных служебных слов, дискурсивных слов)
Статистика по слову война [Хохлова 2008]
По словарю коллокаций Е. Г. Борисовой
MI-коллокации по [Ягунова, Пивоварова 2010]
для новостных текстов – 5 КУРМАНБЕК БАКИЕВ, 6 АЛИШЕР УСМАНОВ, 7 БЕНЕДИКТ XVI, 8 УСЕЙН БОЛТ, 12 СЕРДЕЧНЫЙ ПРИСТУП, 13 ОСАМА БИН, 16 СТИХИЙНЫЙ БЕДСТВИЕ, 21 ЛАМПА НАКАЛИВАНИЕ, 22 РАДОВАН КАРАДЖИЧ, 23 ПОЛЕЗНЫЙ ИСКОПАЕМОЕ, 24 ДЖОННИ ДЕПП, 25 ФИДЕЛЬ КАСТРО, ДОЛИНА СВАТ, 30 САДДАМ ХУСЕЙН, 33 СИМФОНИЧЕСКИЙ ОРКЕСТР, 35 КРОВНЫЙ МЕСТЬ, 37 РАФАЭЛЬ НАДАЛЬ, 38 РИММА САЛОНЕН, 40 КРУГЛЫЙ СТОЛ, 41 ГАРРИ ПОТТЕР, 42 РОБЕРТО МИЧЕЛЕТТИ, 43 ЗАРАБОТНЫЙ ПЛАТА, 44 БОСНИЙСКИЙ СЕРБ, 45 ЧЕН ИР;
Материал – портал www.lenta.ru с апреля по декабрь 2009; общий объем проанализированных текстов: более 66000000 «токенов» (словоупотребленией и знаков препинания)
[Ягунова, Пивоварова 2010] Биграммы с наиболее высокими значениями меры t-score
