Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Болд Энхжин 33503.3.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
257.07 Кб
Скачать

Закон Ципфа

Материал из Википедии — свободной энциклопедии

Закон Ципфа для русской Википедии

Закон Ципфа — эмпирическая закономерность распределения частоты слов естественного языка: если все словаязыка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.

Закон носит имя своего первооткрывателя — американского лингвиста Джорджа Ципфа из Гарвардского университета.

Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в 2005 году[1].

Закон Ципфа математически описывается распределением Парето.

Критика

Американский биолог Вэньтянь Ли[en] предложил опровержение закона Ципфа, доказав, что случайная последовательность символов также подчиняется закону Ципфа[2]. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста.

В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растёт при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту естьконстанта.