Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
БГФ гос.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
943.1 Кб
Скачать

14. Рангавыя размеркаванні ў бібліятэчна-інфармацыйнай дзейнасці

Ранговые распределения возникают, при изучении количественных хар-к текстов различной природы (литературных, музыкальных и живописных произведений, программ для ЭВМ), классификационных схем и других конструкций. Среди ранговых распределений особое место занимает распределение, описываемое формулой Ципфа или ее обобщением — формулой Мандельброта.Закон Ципфа - открытая Дж.Ципфом эмпирическая закономерность распределения частоты встречаемости слов в достаточно большом тексте. По закону Ципфа график зависимости упорядоченной по убыванию частоты-встречаемости-слов имеет вид "гиперболической лестницы". В конце 40-х гг. нашего столетия Дж. Ципф, собрав огромный статистический материал, попытался показать, что распределение слов естественного языка подчиняется одному простому закону, который можно сформулировать след. образом. Если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, затем расположить эти слова в порядке убывания частоты их встречаемости в данном тексте и пронумеровать в порядке от 1 (порядковый номер наиболее часто встречающегося слова) до R, то для любого слова произведение его порядкового номера (ранга) / в таком списке и частоты его встречаемости в тексте будет величиной постоянной, имеющей примерно одинаковое значение для любого слова из этого списка. Аналитически закон Ципфа может быть выражен в виде fr = c, где f – частота встречаемости слова в тексте; r – ранг (порядковый номер) слова в списке; с – эмпирическая постоянная величина. Дж. Ципфом и другими исследователями было установлено, что такому распределению подчиняются не только все естественные языки мира, но и другие явления социального и биолог. характера: распределения ученых по числу опубликованных ими статей (А. Лотка, 1926 г.), городов США по численности населения (Дж. Ципф, 1949 г.), населения по размерам дохода в капиталистических странах (В. Парето, 1897 г.), биологических родов по численности видов (Дж. Уиллис, 1922 г.) и др. Закон Дж.Ципфа  ,применяемый для описания ранговых распределений слов частотного словаря, а также журналов, упорядоченных по убыванию числа помещенных в них статей по заданному предмету. С помощью обобщенных распределений можно описать практически любое статистическое распределение, если оно представляет собой однородную совокупность значений непрерывной случайной величины. Вторая система описывает ранговые распределения журналов, упорядоченных по убыванию числа помещенных в них статей по заданному предмету. Из этой же системы выводится математически точная формулировка закона рассеяния публикаций в смысле С.Бредфорда. Она описывает также распределение слов словаря, фраз и предложений по длине, распределение работающих по уровню заработной платы. Третья система описывает ранговые распределения знаменательных (полнозначных) слов частотного словаря, а также частотных словарей дескрипторов, терминов. Закон Ципфа входит как частный случай во вторую и третью системы непрерывных распределений. Реальные тексты и разбиения, однако, довольно редко удовлетворяют закону Ципфа в точности. Вместе с тем было замечено, что тексты и классификационные схемы, хорошо согласованные с этим законом, соответствуют нашему интуитивному представлению о сбалансированности, целостности, системности. В то же время случайные выборки (случайным образом ото­бранные части целостного текста или, наоборот, конг­ломераты таких текстов) значительно хуже описыва­ются зависимостью типа Ципфа. Это обстоятельство и мотивировало рассмотрение степени соответствия текста (разбиения) закону Ципфа как меры его целостности, связности, хорошей организованности и т.п.

162

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]