- •Задача1. Синтаксические деревья Задача
- •Задача 2. Своя кандидатура
- •Задача 3. Пришёл, увидел, победил
- •Послесловие
- •Задача 4. Ели на опушке
- •Задача 5. Местоимение «ину́»
- •Задача 6. Чёрный замок Задача
- •Задача 13. Перехитрить и перевоспитать
- •Задача 14. Да, господин
- •Задача 15.
- •Задача 16. Праздник непослушания
- •Задача 17. Потакать, понукать и поддакивать
- •Задача 18. Языки - дальтоники
- •Задача 19. Петечка и Петенька
Задача 19. Петечка и Петенька
Даны русские уменьшительные имена, образованные от имен I склонения с помощью суффиксов -очк-/-ечк- и -оньк-/-еньк-. Рядом с каждым именем указано, в скольких текстах, входящих в состав Национального корпуса русского языка, оно встретилось:
Алла |
Аллочка — 53 |
Аллонька — 1 |
Аня |
Анечка — 122 |
Аненька — 2 |
Валя |
Валечка — 68 |
Валенька — 10 |
Вася |
Васечка — 9 |
Васенька — 145 |
Володя |
Володечка — 20 |
Володенька — 48 |
Глаша |
Глашечка — 1 |
Глашенька — 16 |
Дима |
Димочка — 24 |
Димонька — 0 |
Клава |
Клавочка — 23 |
Клавонька — 0 |
Коля |
Колечка — 23 |
Коленька — 85 |
Надя |
Надечка — 7 |
Наденька — 129 |
Петя |
Петечка — 16 |
Петенька — 89 |
Саша |
Сашечка — 7 |
Сашенька — 199 |
Света |
Светочка — 45 |
Светонька — 0 |
Сеня |
Сенечка — 21 |
Сененька — 0 |
Сережа |
Сережечка — 8 |
Сереженька — 87 |
Таня |
Танечка — 146 |
Таненька — 0 |
Толя |
Толечка — 22 |
Толенька — 8 |
Юля |
Юлечка — 23 |
Юленька — 37 |
Задание 1. Опишите закономерности, определяющие, какие имена охотнее присоединяют суффик -очк-/-ечк-, а какие — суффикс -оньк-/-еньк-. Для каких имен нельзя с уверенностью предсказать, какой суффикс окажется частотнее?
Задание 2. Даны пары уменьшительных имен:
Витечка ~ Витенька Лидочка ~ Лидонька Любочка ~ Любонька Олечка ~ Оленька Сонечка ~ Соненька Яшечка ~ Яшенька
Для каждой из этих пар предположите, какое имя чаще встречается в Национальном корпусе русского языка.
Решение
Разделим имена на две группы в зависимости от того, какой вариант у них частотнее: с суффиксом -очк-/-ечк- или с суффиксом -оньк-/-еньк-
-очк-/-ечк-: Алла, Аня, Валя, Дима, Клава, Света, Сеня, Таня, Толя
-оньк-/-еньк-: Вася, Володя, Глаша, Коля, Надя, Петя, Саша, Серёжа, Юля
Можно предположить, что то, какой суффикс оказывается более частотным, зависит от конечного согласного основы, и получить ответ на задание 1:
-очк-/-ечк- |
-оньк-/-еньк- |
Твёрдый согласный: Алла, Дима, Клава, Света |
Шипящий согласный: Глаша, Саша, Серёжа |
н’: Аня, Сеня, Таня |
Мягкий нешипящий согласный (кроме н’): Вася, Володя, Надя, Петя |
Для имён, основа которых оканчивается на мягкий л’, правила установить не удаётся: Валя и Толя относятся в одну группу, Коля и Юля — в другую.
Задание 2. Применяя правила, описанные в задании 1, получаем:
Витечка < Витенька, Лидочка > Лидонька, Любочка > Любонька, Сонечка > Соненька, Яшечка < Яшенька.
Сделать надёжное предсказание для пары Олечка ~ Оленька невозможно.
Все эти предсказания подтвердятся, если проверить ответы по Национальному корпусу русского языка. Кроме того, окажется, что Оленька частотнее, чем Олечка:
Витя |
Витечка — 7 |
Витенька — 55 |
Лида |
Лидочка — 127 |
Лидонька — 0 |
Люба |
Любонька — 77 |
Любочка — 5 |
Оля |
Олечка — 93 |
Оленька — 129 |
Соня |
Сонечка — 146 |
Соненька — 0 |
Яша |
Яшечка — 2 |
Яшенька — 34 |
Послесловие
Решив эту задачу, мы совершили небольшое лингвистическое исследование, которое было бы нелегко реализовать в докомпьютерную эпоху. Конечно, для имён на мягкий н’ (Сеня и т. п.) мы и без всяких подсчётов могли бы предположить, что Сенечка употребляется часто, а Сененька — нет, но для многих других имён (например, для имён на мягкие согласные кроме н’: Вася и т. п.) сделать это было бы затруднительно.
Для того, чтобы иметь возможность оценивать язык не только на основании собственной интуиции, лингвисты и создают корпуса текстов. Корпус — это большое и представительное собрание текстов на том или ином языке (или языках), желательно — снабжённое лингвистической разметкой. Самый большой и популярный такой ресурс для русского языка — это Национальный корпус русского языка (НКРЯ). Он содержит множество самых разных текстов, письменных и устных.
Поисковые запросы к НКРЯ могут быть очень разными. Самый простой вариант — это искать точные формы слов. Например, поочерёдно введя на странице поиска НКРЯ запросы выздоровею и выздоровлю, можно посмотреть, какая из этих форм употребляется чаще (выздоровею — 40 раз, выздоровлю — 33 раза), а также попытаться понять, есть ли какие-то различия в употреблении этих форм. Такой подход, принятый в современной лингвистике, противоречит традиционному представлению о лингвистах как о людях, которые лишь устанавливают норму. В словарях варианту выздоровею отдаётся предпочтение (выздоровлю объявляется неправильным или в лучшем случае разговорным), но описать, какие варианты реально употребляются, на самом деле гораздо важнее, чем навязывать говорящим искусственные нормы.
Поскольку в НКРЯ для каждого слова определены начальная форма и грамматические характеристики, можно задавать и более сложные поисковые запросы. Например, в русском языке в количественных сочетаниях с числительными два, три, четыре, полтора и словами женского рода есть две конкурирующие конструкции: две новых тетради и две новые тетради. Чтобы узнать, какой падеж прилагательного чаще употребляется с числительным две, зададим в лексико-грамматическом поиске запрос из двух слов: слово два в именительном падеже женского рода и любое прилагательное в именительном или, соответственно, родительном падеже множественного числа. Мы получим 9209 примеров на именительный падеж прилагательного и 1265 примеров на родительный падеж. После этого их можно проанализировать и попытаться найти какие-то правила употребления этих конструкций, неочевидные на первый взгляд.
Конечно, часть функций корпусов могут выполнять поисковые системы. По сути, базы Яндекса или Google — это и есть очень большие корпуса, намного превышающие по объёму и НКРЯ, и любой другой существующий корпус. Но, во-первых, эти базы лишены лингвистической разметки (нельзя попросить Яндекс искать прилагательные в родительном падеже множественного числа), во-вторых, в силу целого ряда технических причин к статистике поисковых систем надо относиться с большой осторожностью (см., например, Kilgarriff 2007). Стоит признать, впрочем, что и при использовании корпусов возникает немало проблем (см. Беликов 2011).
Возвращаясь к материалу задачи, отметим, что корпус — не единственно возможный источник сведений о частотности уменьшительный имён. Похожие результаты можно получить, введя те же имена в поиск ВКонтакте: например, имя Светонька найдётся всего 37 раз, а Светочка — 21 645 раз. Интересно, что при таком методе подсчёта числа для мужских имён будут значительно меньше, чем для женских. Дело в том, что мужчины менее склонны сами себя называть уменьшительными именами на -очк-/-ечк-/-оньк-/-еньк-, так что не странно, что Колечка встречается всего 129 раз, а Коленька — всего 415 раз, хотя имя Коля не намного менее частотно, чем Света (228 154 Коли против 264 276 Свет). Но, как бы то ни было, тенденция, в соответствии с которой Коленька частотнее, чем Колечка, подтверждается.
Что же касается выбора суффикса в уменьшительных именах, то он во многом объясняется общей закономерностью, действующей в русском языке: если при словообразовании есть выбор из нескольких суффиксов, предпочитается тот, в котором согласный непохож на конечный согласный основы производящего слова (см. Иткин 2005) — такой принцип называется диссимиляцией, или расподоблением. С именами на н’ (Аня, Сеня, Таня) выбирается суффикс -ечк-, а не суффикс -еньк-, а с именами на шипящий — суффикс -еньк-, а не -ечк- с шипящим ч.
Интересно, что порой встречается и другое проявление того же правила: суффикс, не имеющий вариантов, влияет на то, какой вариант основы для словообразования выбрать. Так себя ведет, например, суффикс —ин, с помощью которого образуются фамилии от слов на —а: сорока — Сорокин и т. п. Неудивительно, что от уменьшительных имён на —очка/—ечка фамилии на —ин образуются намного чаще, чем от имён на —онька/—енька: например, фамилию Васечкин(а) носят около 10 000 пользователей ВКонтакте, а фамилию Васенькин(а) — всего около 400 пользователей.
Литература: 1) Kilgarriff A. Googleology is bad science // Computational Linguistics 2007 (33), № 1: 147–151. 2) Беликов В. И. Чего не хватает в «оцифрованном мире» лексикографу и социолингвисту // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25–29 мая 2011 г.). Вып. 10 (17). — М.: Издательство РГГУ, 2011. 3) Иткин И. Б. Об одном ограничении на сочетаемость суффиксов с основой в современном русском языке // Славяноведение 2005, № 4: 50–57.
Задача использовалась на XLI Московской традиционной олимпиаде по лингвистике (2010 год).