Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
IMG.docx
Скачиваний:
6
Добавлен:
04.02.2016
Размер:
554.56 Кб
Скачать

18А. Размеры и подсчеты

Мы уже упоминали о распределении размеров озер и прудов в качестве примера распределения, основанного не на базисных под­счетах. Хотя такие величины, как размеры, на первый взгляд не похожи на подсчеты, у них есть много общего: размеры задаются с ограниченной точностью и при их анализе возникают те же сложно­сти, что и с базисными подсчетами: «слипание» ряда измерений в одну и ту же величину. Классический подход к такого рода данным связан с именем Георга Кингслея Зипфа и использует понятия «ранга» и «размера», произведение которых, согласно

«закону Зипфа»,

должно быть постоянной величиной.

На вопрос, чему равен ранг, как правило трудно дать ответ — возможно потому, что часто внимание сосредоточено на больших значениях подсчетов базисных подсчетов. Если в наблюдениях имеется много базисных подсчетов, равных, например, 1 (что часто имеет место), их «ранг» требует аккуратного определения. В примере с повестью Пушкина, который мы кратко рассмотрим, слова, связанные с базисным подсчетом, равным 1, занимают ранги от 2400 до 4783. Какой ранг в этом случае следует приписать «размеру 1»?

Мы будем использовать так называемый «полный ранг» с кратким обозначением

п-ранг,

равный наибольшему рангу, который можно приписать данному базисному подсчету (или размеру), т. е. равный числу элементов выборки, не меньших этого базисного подсчета (или размера).

На приводимой ниже иллюстрации рассматриваются три примера, базисными подсчетами которых являются:

<0 число статей, опубликованных в данном журнале, рефераты которых появились в 1961 г. в Science Abstracts (А) в разделе «Элект­рические свойства твердых тел»;

<0 число статей, опубликованных в данном журнале, рефераты которых появились в 1961 г. в Science Abstracts (А) в разделе «Атом­ная и молекулярная физика»;

<(> частота появления данного русского слова (в определенной грамматической форме) в повести Пушкина «Капитанская дочка».

Все три распределения имеют длинные хвосты, что ясно из сле­дующей таблицы, в которой приведены экстремальные значения для этих распределений:

!

2

3

4

Электр, ев-ва тв. тел.

255

46

1 342

118

Атомн. и молек. физ.

372

39

1 339

107

«Капитанская дочка»

1160

2384

29 345

4783

В столбцах 1—4 помещены следующие величины:

  1. — наибольшее значение базисного подсчета;

  2. — число подсчетов базисного подсчета, равного 1;

  3. — общее число наблюдений;

  4. — сумма подсчетов.

Например, в «Капитанской дочке» одно слово появляется 1160 раз, в то время как 2384 слова появляются только по одному разу. Общее число различных слов 4783, и появляются они всего 29 345 раз.

На илл. 1 приведены сами данные, а на илл. 2 — три графика остатков, полученных в результате вычитания из корней подсчетов значений аппроксимирующих зависимостей, приведенных на илл. 1, Б, Эти зависимости представляют собой линейные функции, связывающие значения корней из числа подсчетов, приходящихся на октаву (или логарифмов корней), с номерами ячеек. В иллюстрациях мы не за­мечаем ничего характерного, что привлекло бы наше внимание. Тем не менее по крайней мере один из примеров имеет особенность, вполне заслуживающую рассмотрения.

Пять наибольших значений базисных подсчетов в этих примерах равны:

"•«и * 3

Как видно, в примере с «Атомной и молекулярной физикой» наиболь­ший базисный подсчет значительно дальше отстоит от следующего по величине, чем в других примерах. Желательно было бы найти какой-нибудь способ улавливать подобные особенности. Но какой?

Хорошую идею в этом отношении можно почерпнуть из анализа корней от пяти наивысших базисных подсчетов и их разностей. Для корней из подсчетов имеем:

Электр, св-ва тв. тел

16,0

11,4

11,3

8,7

8,3

Атомн. и молек. физика

19,3

8,9

7,8

7,3

7,1

«Капитанская дочка»

34,1

27,9

26,9

24,1

21,9

Разности корней равны:

Электр, св-ва тв. тел

4,6

0,1

2,6

0,4

Атомн. и молек. физика

10,4

1,1

0,5

0,2

«Капитанская дочка»

6,2

1,0

2,8

2,2

Во всех случаях наивысшее значение весьма заметно отделено от следующего по величине. «Оторванность» наибольшего базисного подсчета настолько велика, что этот подсчет, по-видимому, связан с каким-то характерным объектом. Наоборот, если бы мы интересо-

Иллюстрация 1 главы 18: три множества событий Подсчеты в октавных ячейках для распределений с длинными хвостами

А) ДАННЫЕ по ОКТАВАМ

Иллюстрация 1 (продолжение)

Б) АППРОКСИМАЦИИ

Ячейки представляют собой октавы: ячейка #0 содержит базисные подсчеты, равные 1; ячейка #1 — базисные подсчеты, равные 2 и 3, и т, д,

Электр, св-ва тв. тел: У подсчет/ячейка — 5,6—0,655.

Агомн. и молек. физика: V подсчет/ячейка = 5,6—0,7В,

«Капитанская дочка»: \%У подсчет/ячейка = 1,700,165,

В) БУКВЕННЫЕ ЗНАЧЕНИЯ

Г) УПРАЖНЕНИЯ

1а) Ввиду довольно устойчивой (хотя и слабой) тенденции смещения остатков для данных по «Капитанской дочке» в положительную сторону (откуда это видно?) попытайтесь использовать аппроксимацию lg У подсчет/ячейка = 0,01+1,70— —0,165 и найти для нее остатки и их буквенные значения, Приводит ли это к улучшению результатов?

Д) ИСТОЧНИКИ:

Для разделов «Электрические свойства твердых тел» и «Атомная и молекулярная физика» — соответственно габл. 20 и 22 из работы:

Keenan S., Atherton P. The Journal Literature of Phisics (AIP/DRP PA1 (1964)). Ame­rican Institute of Physics, New York, 1964; для «Капитанской дочки» табл. 32 на с. 97 из работы:

Herdan G. The Advanced Theory of Language as Choice and Chance (Kommunikation und Kybernetik in Einzeldarstellungen, Band 4), Springer, New York, 1966. (Источники для последней работы: Josselson Н. Н. The Russian Word Count (Frequency Analysis of Grammatical Categories of Standard Literary Russian). Wayne University Press, Detroit, 1953.)

вались некоторым названием, естественно было бы начать с извле­чения квадратного корня из соответствующего ему подсчета.

Другой важной для нашего случая величиной является общее число объектов: наименований журналов или русских слов, причем опятъ-таки естественно брать не само число, а квадратный корень из него,

возможный подход

Имеются две крайние ситуации. С одной стороны, много объектов наблюдения (много журналов, много слов) появляется только один раз. С другой стороны, какой-нибудь один объект (один из журналов, одно из слов) появляется много раз. Здесь ощущается некоторая симметрия между двумя типами подсчетов:

<£> числом появлений, т. е. величиной базисного подсчета, и

() числом объектов, появляющихся не менее заданного числа раз, 1, е. полным рангом (отсчитываемым сверху).

Иллюстрация 2 главы 18: три множества событий

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]