Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Презентации_Мат.методы в лингвистике.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
255.98 Кб
Скачать

Статистическое исследование словарей

параметры известных толковых словарей [Мухин, 2010, 2013]

Толковый словарь

Объективный аспект: общезначимая модель языковой системы и слепок культуры, отраженной в языке.

Субъективный аспект: индивидуальная языковая модель, определяемая задачами издания и индивидуальными особенностями составителей.

Рабочая гипотеза

Обобщение частотных слов, употребляемых в каждом конкретном словаре может способствовать:

а) систематизации представлений о каждом словарном проекте

б) выявлению как универсальных, так и оригинальных национально-культурных особенностей, отражаемых лексикографическими источниками

Малый академический словарь (МАС) Словарь русского языка под ред. А. П. Евгеньевой

Новый словарь русского языка: Толково-словообразова-тельный под ред. Т. Ф. Ефремовой (СЕ)

Толковый словарь русского языка под ред. С. И. Ожегова и Н. Ю. Шведовой (СОШ)

Толковый словарь русского языка под ред. Д.Н.Ушакова (СУ)

Модель сопоставления

Общая статистика

Материал

Из каждого словаря выбрано по 10 тысяч самых частотных словоформ (полных слов и графических сокращений)

Полученные четыре списка сопоставлены.

Выявлены словоформы, попадающие в частотный пик всех словарей, и, наоборот, часто встречающиеся только в одном словаре

Лексикографические «универсалии»

маркеры вида глагола (несов. — в среднем 18,4 тыс. и сов. — в среднем 13,5 тыс. на словарь), рода и числа существительного (м., ж., ср., мн.)

пометы разг. (17,6 тыс.), перен.(7,1), устар. (6,2) и уменьш. (1); кроме того, безл., однокр., нескл.

названия частей речи (прил. — 14,7 тыс., сущ. — 8,5, глаг. — 6,7)

сокращения знач., см., употр. и др.

операторы словарных дефиниций и типичные идентификаторы: действие, связанный, свойственный, характерный, выражающий, принадлежащий, являющийся, относящийся, предназначенный, имеющий, сделанный, содержащий, свойство, состояние, процесс, совокупность; человек, время, часть, место, сделать и др.

Индивидуальные словоформы: МАС

Фамилии авторов лит. примеров: Мамин-Сибиряк (ок. 2000 раз), Паустовский, Гладков, Федин, Арсеньев, Каверин, Марков, Бунин и др.

Лексика из названий произведений: [Тихий] Дон, Анна, Каренина, Обломов, [Жизнь] Клима, Самгина, Фрегат, Паллада, Воскресение, Капитанская [дочка], Поднятая, целина и многие др.

сокращения, не принятые в других изданиях: франц., повел., ист., деепр., народно-поэт., трад.поэт. и числ. (в прочих словарях числит.).

система подачи финалей слов: нкам, ткам, льно, лось, чно, чкам, лён, лена, вкам, лкам, ствую, ствуешь, жена, жено и т.п.

Маркеры сочетаемости: с определением и с придаточным дополнительным.

Индивидуальные словоформы: СЕ

Термины: суффикс, префикс, словообразовательная, беспрефиксным, мотивирующим, формообразовательная и т.п.; словоформа вносящая; предикатив, этноязыковой, лингвистике, высказывание, несогласованное [определение]; слова придаточной, сложноподчиненного, существительном, глаголом, прилагательным, обозначают, характеризующееся, шутливости, пренебрежительности, порядковое, несовершенного, словосочетании и многие др.

Особые сокращения: неперех., местн. (местное, о диалектизме), пад. (падеж), усилит.

Операторы толкований: соотносящийся (10 тыс. раз) и соотносится (3 тыс. раз) — обычно «по знач. с сущ. или прил.». Специфичные операторы преисполненный (например, постоянного внимания) и приверженец (абсолютизма, богоискательства, вольтерьянства и т.п.).

Индивидуальные словоформы: СОШ

Многочисленные финали слов: ожу, су, твую и твуешь, ленный, нённый, оченный, оенный, оженный, ованный, рённый, уженный, утый, илось, алось, ан, ана, ист и т.п.

Словоформы индоевропейской, финно-угорской, противопоставление и грамматике (в статьях о языках и языковедческих терминах), а также устройству, внутреннему.

Оригинальные сокращения: унич., союзн. (обычно о союзном слове), посл. (пословица).

В иллюстративном материале частотно слово афоризм. Для культурологических справок характерна словоформа сказанию из сочетания «по библейскому (евангельскому) сказанию». В речениях часто используется слово ребенок (ребенка): «глухонемой ребенок», «разуть ребенка» и т.д.

Индивидуальные словоформы: СУ

Доменные пометы: авиац., искус., филол., псих., геодез., геогр., кулин., этногр., дипл., социол., живоп., этнол., педаг., шахм. и даже апт. (аптекарское), плотн. (плотничье дело), порт. и сапож. Хронолог. пометы (старин., дореволюц., истор. и нов.); помета загр. (за границей). Др. стил. и эмоц. пометы: простореч., торж. (торжественное) канц., церк.-книжн., уменьш.-ласкат., ласкат., неодобрит., презрит., уничижит., вульг., фам.

Лингвистические термины: превосх., накл., дееприч., действ., эвф., звукоподраж. и др., — а также этимол. указатели (латин., фр., ит.).

Специфические написания фамилий авторов: Тргнв, Чрншвскй, Острвскй (прочие уступают по частотности).

Идеологемы Сталин, Молотов, Маркс, социалистической, марксизм, капиталист, большевик, ЦК, коммунизм, пролетариат, съезд, эксплоатация, Интернационал и многие др.

Выводы: Индивидуальные параметры словарей

МАС: литературные иллюстрации и общая нейтральность лексикографирования.

СЕ: научность описания и словообразовательные аспекты.

СОШ: точное отражение словоизменения и сокращение объема издания.

СУ: разветвленность стилистической характеристики слов и идеологизированность семантической интерпретации и подбора иллюстраций.

Статистические методы в функциональной и идиостилистике

Статистика и функциональная стилистика

Распределение частей речи в текстах разных функциональных стилей и др. наблюдения

НКРЯ: Распределение словоупотреблений по частям речи (в зоне снятой грамматической омонимии). Знаменательная лексика составляет 59,9 %

НКРЯ: Распределение словоупотреблений по знаменательным частям речи. (наречие = предикатив, числительные- прилагательные = числительные)

Части речи и функц. стили (по данным П. И. Браславского)

Доля знаменат. частей речи в функц. стилях

Соотношение знаменат. частей речи в функц. стилях (% от кол-ва слов ЗЧР)

[Горбич et al. 2012]

Исследованы русскоязычные тексты различных авторов, относящиеся к разным временным периодам: от нач. XVIII в. (В. Татищев, В. Тредиаковский) и до произведений современных авторов (А. Еременко, Т. Кибиров, Т. Толстая, В. Пелевин) – всего 51 поэтический и 51 прозаический текст.

Количество гласных букв составило от 13 297 до 323 073 для поэтических и от 34 193 до 571 426 для прозаических текстов.

Вычислены частоты отдельных букв и их биграмм. Частоты отдельных гласных букв не отличались от средних частот в русском языке.

[Горбич et al. 2012]

При вычислении частотности буквенных биграмм отличие эмпирического распределения от модельного (теоретического) оценивалось по критерию Пирсона (хи-квадрат).

где pi theor – теоретическая частотность i-той биграммы,

pi emp – эмпирическая частотность i-той биграммы,

k – количество биграмм

[Горбич et al. 2012] Вычисленные значения критерия Пирсона для всех текстов были разбиты на две группы «Поэзия» и «Проза»:

[Горбич et al. 2012]

По данным авторов, подобную картину дает исследование текстов разных функциональных стилей: официальных, публицистических, художественных.

Вопрос в специализированной интерпретации полученных данных. На вопрос «Почему?» однозначного филологического ответа пока нет.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]