
Частотные словари
Понятие частотного словаря
Проблемы составления частотного словаря
Частотные словари и обучение языку
Частотные словари и лексикография
Частотные словари и лингвистическая типология
Использование частотных словарей в компьютерной лингвистике
1.
Частотный словарь – включает в себя те слова или другие лингвистические единицы (словоформы, словосочетания, лексемы), которые зарегистрированы в обследованном наборе текстов. При каждом слове указывается частота употребления данного слова в текстах.
«Частотный словарь русского языка», – под ред. Засориной, Москва – 1977.
Частотные словари также могут составляться на основе одного произведения. Например, «Частотный словарь Нового Завета». (3569 – количество всех слов текста) 1. Союз «и» – 4400, 2. «Он» – 2352, 3. Предлог «в, во» – 1591, 4-9. – служебные части речи, 10. «говорить» – 776, 12. «Иисус» – 649.
Частотный словарь по роману «Айвенго». 1. Артикль «the», 2. Предлог «of», 3. «and», 4. «to», 5. «a».
Частотный словарь по роману «Новая зямля». 1. «Мак» (самое часто употребляющееся название растения).
Существует три способа расположения словарного материала в частотном словаре:
Алфавитный
По убыванию частот
По принципу обратного (составление по алфавитному принципу, учитывая буквы с конца слова). Например: 1. Белка, 2. Азбука, 3. Арбуз
Понятие относительной частоты.
Формула: Fотн = Fабс/N, где Fотн – частота относительная, Fабс – частота абсолютная, N – число словоупотреблений.
Пример («Новый Завет»): Fотн = 4400/59654 – относительная частота употребления союза «и».
Накопленная частота показывает, какое количество текстов покрывает определенная группа слов.
Пример. В «Новом Завете» первые 3 слова покрывают 19% текста, первые 12 слов – 28,6%.
Этот результат показывает возможности, которые предлагают частотные словари в исследовании стилистики текста, в обучении языку и других приложениях, где требуется определить лексические зоны, обладающие определенной текстообразующей способностью.
Частотный словарь помогает также выяснить границы живой лексической системы языка в определенный период времени, таким образом разграничить языки активной и пассивной системы, получить сведения о лексике с учетом жанровой дифференциации источников.
Распределение лексики по частям речи в текстах разных функциональных стилей
|
Художественные/ публицистичные тексты (%) |
Технические тексты (%) |
Эпистолярные тексты (письма) (%) |
Разговорные тексты (%) |
Существительное |
26,5 |
41,7 |
18,4 |
12,9 |
Прилагательное |
8,3 |
15,4 |
6,3 |
2,3 |
Местоимение |
12,1 |
4,3 |
17,7 |
22,3 |
Глагол |
19,5 |
12,5 |
19,4 |
18,5 |
Наречие |
7,8 |
3,8 |
10,2 |
14,3 |
Междометие |
0,3 |
0 |
0,1 |
0,4 |
Исследования статической лексикографии показали, что первая 1000 самых употребительных слов покрывает 80% текста, первые 2000 – 90%.
Это явление имеет закономерный характер для многих языков. Таким образом, частотный словарь как модель организации лексики помогает разрешить противостояние неопределенного по размерам словарного запаса языка и его фактической реализации в речи.
2.
Проблемы:
1. Какой текст или тексты подвергнуть анализу?
2. Длина текста или текстов.
3. Учет сложных терминов (железная дорога, диффузная гипертензия имеют одно значение).
4. Проблема единиц частотного словаря (учитываются словоформы или единицей является лексема).
5. Разрешение омонимии.
Применение математических методов в лингвистике – в частности, при составлении частотных словарей –, позволяет ответит на вопрос, что является языковой единицей, а что создается каждый раз в речи (речевая единица). На основе подсчета частот на разных уровнях можно сделать вывод, что фонемы, морфемы, слова, словосочетания-клише и некоторые короткие предложения повторяются в языке с некоторыми регулярными частотами. Таким образом, их можно считать языковыми единицами. А словосочетания, предложения и тексты создаются или воспроизводятся в момент порождения речевого высказывания. Таким образом, они принадлежат только к сфере речевой практики.
Совокупность всех подлежащих изучению фактов называется статистической совокупностью.
Она включает в себя:
Генеральную совокупность – множество всех факторов;
Выборочную совокупность – некоторую часть генеральной совокупность, извлеченная из нее одним из предусмотренных правилами статистики способов. Подлежит непосредственному наблюдению.
Метод случайной выборки.
Метод сплошной выборки.
Кроме абсолютной и относительной частоты в частотном словаре может быть указан и коэффициент распространенности слова, т.е. во скольких текстах из выбранной совокупности встречается данное слово.
Могут быть указаны так же частоты для разных стилей речи, а также для разных авторов в рамках одного словаря. При учете различных лексических значений одного слова можно получить частотно-семантический словарь.
3.
Центральной проблемой при обучении языку является проблема отбора учебного материала. Существует один из критериев отбора лексики в учебные словари – это его абсолютная частота в частотном словаре. При овладении иностранным языком человек, прежде всего, должен усвоить наиболее употребительные слова данного языка. Чтобы выявить наиболее употребительные слова можно обнаружить в частотном словаре.
Однако частотные словари далеко не всегда отражают реальную картину распространенности слова в речи. Пример, некоторые слова могут не быть частотными в речи, однако они всегда готовы к употреблению, поскольку обозначают предметы, окружающие человека в окружающей человека повседневной жизни (автобус, вилка, пуговица – по исследованию Засориной). Поэтому было введено понятие резервности, т.е. постоянное наличие лингвистической единицы в сознании человека.
Также проводились исследования по определению объективной и субъективной оценки частоты слов. Выяснилось, что некоторые слова получают значительную разницу в частотах словаря и в оценках испытуемых. Некоторые ученые считают субъективную частоту более реальной/правильной, нежели частота, указанная в частотном словаре, поскольку человек при оценке опирается на весь свой прошлый речевой опыт.
4.
Основные тезисы:
Частота слова является критериев внесения или невнесения слова в словарь. Пример, заимствованные слова «бренд», «референт» должны писаться через «е», несмотря на произношение. Однако из-за частых случаев написания слов через «э», оба варианта считаются равно употребимыми.
Частотный словарь – исходных материал для построения лексических минимумов.
Частотный словарь содержит материал, который может быть использован для преобразовании одноязычного частотного словаря в учебный переводной.
Двуязычные частотные словари, в которых входная половина является частотной, а выходная половина – нет.
5.
Основная задача лингвистической типологии – изучение лингвистических систем с целью выявления черт сходства и различия между ними, чтобы в свою очередь эти системы можно было классифицировать на основе типологических признаков и обнаруживать закономерности, управляющие связями элементов внутри этих систем.
К лингвистической типологии можно также отнести сравнительное изучение как языков, так и функциональных стилей и подъязыков.
Сравнивая отрезки фиксированной длины, написанные на разных языках, можно судить о близости или отдаленности строя этих языков на основе количественных отношений между словами в этих текстах и компонентами их морфологической структуры.
Степень аналитизма можно также определить по данным частотного словаря, разделив число разных лексем на число словоформ.
Коэффициент синтетичности языка, определенный на основе частотного словаря (200 000 словоупотреблений). I=L/W
|
Лексемы (L) |
Словоформы (W) |
Коэффициент (I) |
Русский |
6826 |
2164 |
0.32 |
Испанский |
7564 |
13507 |
0.56 |
Французский |
5858 |
10299 |
0.57 |
Английский |
7160 |
10582 |
0.67 |
6.
В системах машинного перевода на основе частотного словаря при отсутствии других критериев отдается предпочтение одному из вариантов перевода многозначного слова. Пример, «мягкий» = «soft, light, gentle, mild, fresh».
При автоматическом реферировании и аннотировании выделение ключевых слов происходит по статистическому методу, т.е. от зависимости веса слова от его частоты.
Для частотного словаря можно вывести коэффициент лексического разнообразия, который вычисляется по формуле C=L/N, где N – число словоупотреблений.