- •Практическая арифметика для гуманитариев (?)
- •75 70 82 68 80. Средняя – 75.
- •Способы изучения зависимостей между случайными величинами
- •Пример регрессионной зависимости
- •Частотные словари русского языка
- •Лексическая статистика и авторская лексикография
- •Статистическое исследование словарей
- •Статистика и идиостилистика
- •Объем художественного текста (?)
- •Сопоставление с другими авторами
- •Синтагматические характеристики «частей тела»
- •Статистические методы в социолингвистических исследованиях
- •Обработка статистических результатов в социолингвистике [Беликов, Крысин, 2001]
- •96% Смотрели фильмы на обоих языках
- •3 Группы документов: публичная речь, непубличная речь, речь кино.
- •Гендерные характеристики ряда семантических классов слов [Мухин, 2014]
- •Статистические методы и генезис языка: глоттохронология, циклические процессы в языке
Статистическое исследование словарей
параметры известных толковых словарей [Мухин, 2010, 2013]
Толковый словарь
Объективный аспект: общезначимая модель языковой системы и слепок культуры, отраженной в языке.
Субъективный аспект: индивидуальная языковая модель, определяемая задачами издания и индивидуальными особенностями составителей.
Рабочая гипотеза
Обобщение частотных слов, употребляемых в каждом конкретном словаре может способствовать:
а) систематизации представлений о каждом словарном проекте
б) выявлению как универсальных, так и оригинальных национально-культурных особенностей, отражаемых лексикографическими источниками
Малый академический словарь (МАС) Словарь русского языка под ред. А. П. Евгеньевой
Новый словарь русского языка: Толково-словообразова-тельный под ред. Т. Ф. Ефремовой (СЕ)
Толковый словарь русского языка под ред. С. И. Ожегова и Н. Ю. Шведовой (СОШ)
Толковый словарь русского языка под ред. Д.Н.Ушакова (СУ)
Модель сопоставления
Общая статистика
Материал
Из каждого словаря выбрано по 10 тысяч самых частотных словоформ (полных слов и графических сокращений)
Полученные четыре списка сопоставлены.
Выявлены словоформы, попадающие в частотный пик всех словарей, и, наоборот, часто встречающиеся только в одном словаре
Лексикографические «универсалии»
маркеры вида глагола (несов. — в среднем 18,4 тыс. и сов. — в среднем 13,5 тыс. на словарь), рода и числа существительного (м., ж., ср., мн.)
пометы разг. (17,6 тыс.), перен.(7,1), устар. (6,2) и уменьш. (1); кроме того, безл., однокр., нескл.
названия частей речи (прил. — 14,7 тыс., сущ. — 8,5, глаг. — 6,7)
сокращения знач., см., употр. и др.
операторы словарных дефиниций и типичные идентификаторы: действие, связанный, свойственный, характерный, выражающий, принадлежащий, являющийся, относящийся, предназначенный, имеющий, сделанный, содержащий, свойство, состояние, процесс, совокупность; человек, время, часть, место, сделать и др.
Индивидуальные словоформы: МАС
Фамилии авторов лит. примеров: Мамин-Сибиряк (ок. 2000 раз), Паустовский, Гладков, Федин, Арсеньев, Каверин, Марков, Бунин и др.
Лексика из названий произведений: [Тихий] Дон, Анна, Каренина, Обломов, [Жизнь] Клима, Самгина, Фрегат, Паллада, Воскресение, Капитанская [дочка], Поднятая, целина и многие др.
сокращения, не принятые в других изданиях: франц., повел., ист., деепр., народно-поэт., трад.‑поэт. и числ. (в прочих словарях числит.).
система подачи финалей слов: ‑нкам, ‑ткам, ‑льно, ‑лось, ‑чно, ‑чкам, ‑лён, ‑лена, ‑вкам, ‑лкам, ‑ствую, ‑ствуешь, ‑жена, ‑жено и т.п.
Маркеры сочетаемости: с определением и с придаточным дополнительным.
Индивидуальные словоформы: СЕ
Термины: суффикс, префикс, словообразовательная, беспрефиксным, мотивирующим, формообразовательная и т.п.; словоформа вносящая; предикатив, этноязыковой, лингвистике, высказывание, несогласованное [определение]; слова придаточной, сложноподчиненного, существительном, глаголом, прилагательным, обозначают, характеризующееся, шутливости, пренебрежительности, порядковое, несовершенного, словосочетании и многие др.
Особые сокращения: неперех., местн. (местное, о диалектизме), пад. (падеж), усилит.
Операторы толкований: соотносящийся (10 тыс. раз) и соотносится (3 тыс. раз) — обычно «по знач. с сущ. или прил.». Специфичные операторы преисполненный (например, постоянного внимания) и приверженец (абсолютизма, богоискательства, вольтерьянства и т.п.).
Индивидуальные словоформы: СОШ
Многочисленные финали слов: ‑ожу, ‑су, ‑твую и ‑твуешь, ‑ленный, ‑нённый, ‑оченный, ‑оенный, ‑оженный, ‑ованный, ‑рённый, ‑уженный, ‑утый, ‑илось, ‑алось, ‑ан, ‑ана, ‑ист и т.п.
Словоформы индоевропейской, финно-угорской, противопоставление и грамматике (в статьях о языках и языковедческих терминах), а также устройству, внутреннему.
Оригинальные сокращения: унич., союзн. (обычно о союзном слове), посл. (пословица).
В иллюстративном материале частотно слово афоризм. Для культурологических справок характерна словоформа сказанию из сочетания «по библейскому (евангельскому) сказанию». В речениях часто используется слово ребенок (ребенка): «глухонемой ребенок», «разуть ребенка» и т.д.
Индивидуальные словоформы: СУ
Доменные пометы: авиац., искус., филол., псих., геодез., геогр., кулин., этногр., дипл., социол., живоп., этнол., педаг., шахм. и даже апт. (аптекарское), плотн. (плотничье дело), порт. и сапож. Хронолог. пометы (старин., дореволюц., истор. и нов.); помета загр. (за границей). Др. стил. и эмоц. пометы: простореч., торж. (торжественное) канц., церк.-книжн., уменьш.-ласкат., ласкат., неодобрит., презрит., уничижит., вульг., фам.
Лингвистические термины: превосх., накл., дееприч., действ., эвф., звукоподраж. и др., — а также этимол. указатели (латин., фр., ит.).
Специфические написания фамилий авторов: Тргнв, Чрншвскй, Острвскй (прочие уступают по частотности).
Идеологемы Сталин, Молотов, Маркс, социалистической, марксизм, капиталист, большевик, ЦК, коммунизм, пролетариат, съезд, эксплоатация, Интернационал и многие др.
Выводы: Индивидуальные параметры словарей
МАС: литературные иллюстрации и общая нейтральность лексикографирования.
СЕ: научность описания и словообразовательные аспекты.
СОШ: точное отражение словоизменения и сокращение объема издания.
СУ: разветвленность стилистической характеристики слов и идеологизированность семантической интерпретации и подбора иллюстраций.
Статистические методы в функциональной и идиостилистике
Статистика и функциональная стилистика
Распределение частей речи в текстах разных функциональных стилей и др. наблюдения
НКРЯ: Распределение словоупотреблений по частям речи (в зоне снятой грамматической омонимии). Знаменательная лексика составляет 59,9 %
НКРЯ: Распределение словоупотреблений по знаменательным частям речи. (наречие = предикатив, числительные- прилагательные = числительные)
Части речи и функц. стили (по данным П. И. Браславского)
Доля знаменат. частей речи в функц. стилях
Соотношение знаменат. частей речи в функц. стилях (% от кол-ва слов ЗЧР)
[Горбич et al. 2012]
Исследованы русскоязычные тексты различных авторов, относящиеся к разным временным периодам: от нач. XVIII в. (В. Татищев, В. Тредиаковский) и до произведений современных авторов (А. Еременко, Т. Кибиров, Т. Толстая, В. Пелевин) – всего 51 поэтический и 51 прозаический текст.
Количество гласных букв составило от 13 297 до 323 073 для поэтических и от 34 193 до 571 426 для прозаических текстов.
Вычислены частоты отдельных букв и их биграмм. Частоты отдельных гласных букв не отличались от средних частот в русском языке.
[Горбич et al. 2012]
При вычислении частотности буквенных биграмм отличие эмпирического распределения от модельного (теоретического) оценивалось по критерию Пирсона (хи-квадрат).
где pi theor – теоретическая частотность i-той биграммы,
pi emp – эмпирическая частотность i-той биграммы,
k – количество биграмм
[Горбич et al. 2012] Вычисленные значения критерия Пирсона для всех текстов были разбиты на две группы «Поэзия» и «Проза»:
[Горбич et al. 2012]
По данным авторов, подобную картину дает исследование текстов разных функциональных стилей: официальных, публицистических, художественных.
Вопрос в специализированной интерпретации полученных данных. На вопрос «Почему?» однозначного филологического ответа пока нет.
