Закон Ципфа
Материал
из Википедии — свободной энциклопедии
Закон
Ципфа для русской Википедии
Закон
Ципфа — эмпирическая
закономерность распределения частоты слов естественного
языка:
если все словаязыка (или
просто достаточно длинного текста)
упорядочить по убыванию частоты их
использования, то частота n-го
слова в таком списке окажется
приблизительно обратно
пропорциональной его
порядковому номеру n (так
называемому рангу этого
слова, см. шкала
порядка).
Например второе по используемости слово
встречается примерно в два раза реже,
чем первое, третье — в три раза реже,
чем первое, и так далее.
Закон
носит имя своего первооткрывателя —
американского лингвиста Джорджа
Ципфа из Гарвардского
университета.
Объяснение
закона Ципфа, основанное на корреляционных
свойствах аддитивных марковских
цепей (со
ступенчатой функцией памяти) было дано
в 2005
году[1].
Закон
Ципфа математически описывается распределением
Парето.
Критика
Американский
биолог Вэньтянь
Ли[en] предложил
опровержение закона Ципфа, доказав, что
случайная последовательность символов
также подчиняется закону Ципфа[2].
Автор делает гипотетический вывод, что
закон Ципфа, по-видимому, является чисто
статистическим феноменом, не имеющим
отношения к семантике текста.
В
общих чертах доказательство этой теории
состоит в следующем. Вероятность
случайного появления какого-либо слова
длиной n в
цепочке случайных символов уменьшается
с ростом n в
той же пропорции, в какой растёт при
этом номер этого слова в частотном
списке. Потому произведение номера
слова на его частоту естьконстанта.