- •Глава 17
- •Указатель к главе 17
- •17А. Плавные компоненты и неровности квадратных корней (ячейки одинаковых размеров)
- •17Б. Подсчеты базисных подсчетов
- •17В. Аппроксимация сглаженных корней
- •Вычисления при подгонке прямой линии для графика илл. 14 (первая подгонка)
- •17Г. Зерновые точильщики, цены на пшеницу и модельный эксперимент стьюдента
- •Пробная аппроксимация данных о зерновых точильщиках (плавная компонента из илл. 7, точка максимума, равная 1,3, — из текста)
- •Остатки: вверху — только они, внизу — с плавной компонентой (по результатам илл. 18)
- •17Д. Ячейки неравных размеров
- •17Е. Двойные корни
- •Данные Резерфорда и Гейгера о радиоактивном распаде полония (события — сцинтилляции, вызываемые а-частицами)
- •17Ж. Предостерегающие примеры
- •Снова длина предплечья
- •Иллюстрация 29 главы 17: длина предплечья Вычисления для величин, обратных корням подсчетов
- •Уточнение положения максимума (дополнительный материал)
- •Иллюстрация 30 главы 17: длина предплечья и сцинтилляции полония Остатки для двух различных аппроксимаций (по данным илл. 29 и 31)
- •Анализ желательных точек максимума по данным илл. 31 и график получающихся остатков
- •Обзорные вопросы
- •17И. Чего мы достигли?
- •Глава 18
- •18А. Размеры и подсчеты
- •Остатки после аппроксимации данных, сгруппированных по ячейкам в виде октав, для трех примеров илл. 1
- •18Б. Анализ произведений-отношений
- •График корней из произведения в зависимости от логарифма отношения (по данным илл. 3)
- •18В. Выделение необычного, требующего внимания
- •Иллюстрация 9 главы 18: упражнения Несколько упражнений на использование графиков произведений-отношений
- •18Г. Сравнение различных совокупностей данных
- •Три множества данных, согласованные в точке базисного подсчета, равного 6 (а—ь— 6)
- •18Д. Особенности наименьшего базисного подсчета
- •Начальная часть графиков илл. 10 — точки, соответствующие альтернативным п-рантам для единичного базисного подсчета
- •18Е. Нулевые базисные подсчеты
- •Некоторые данные, в которых сдвиг подсчетов позволяет улучшить графики произведений-отношений:
- •Четыре множества подсчетов, сдвинутые на 4 и согласованные при базисном подсчете, равном 3
- •Обзорные вопросы
- •Остатки для корней из произведений (при сдвиге на 4 и согласовании при а—ь— 3) после вычитания общей аппроксимирующей прямой (формулу см. В тексте)
- •18И. Чего мы достигли?
18А. Размеры и подсчеты
Мы уже упоминали о распределении размеров озер и прудов в качестве примера распределения, основанного не на базисных подсчетах. Хотя такие величины, как размеры, на первый взгляд не похожи на подсчеты, у них есть много общего: размеры задаются с ограниченной точностью и при их анализе возникают те же сложности, что и с базисными подсчетами: «слипание» ряда измерений в одну и ту же величину. Классический подход к такого рода данным связан с именем Георга Кингслея Зипфа и использует понятия «ранга» и «размера», произведение которых, согласно
«закону Зипфа»,
должно быть постоянной величиной.
На вопрос, чему равен ранг, как правило трудно дать ответ — возможно потому, что часто внимание сосредоточено на больших значениях подсчетов базисных подсчетов. Если в наблюдениях имеется много базисных подсчетов, равных, например, 1 (что часто имеет место), их «ранг» требует аккуратного определения. В примере с повестью Пушкина, который мы кратко рассмотрим, слова, связанные с базисным подсчетом, равным 1, занимают ранги от 2400 до 4783. Какой ранг в этом случае следует приписать «размеру 1»?
Мы будем использовать так называемый «полный ранг» с кратким обозначением
п-ранг,
равный наибольшему рангу, который можно приписать данному базисному подсчету (или размеру), т. е. равный числу элементов выборки, не меньших этого базисного подсчета (или размера).
На приводимой ниже иллюстрации рассматриваются три примера, базисными подсчетами которых являются:
<0 число статей, опубликованных в данном журнале, рефераты которых появились в 1961 г. в Science Abstracts (А) в разделе «Электрические свойства твердых тел»;
<0 число статей, опубликованных в данном журнале, рефераты которых появились в 1961 г. в Science Abstracts (А) в разделе «Атомная и молекулярная физика»;
<(> частота появления данного русского слова (в определенной грамматической форме) в повести Пушкина «Капитанская дочка».
Все три распределения имеют длинные хвосты, что ясно из следующей таблицы, в которой приведены экстремальные значения для этих распределений:
|
! |
2 |
3 |
4 |
Электр, ев-ва тв. тел. |
255 |
46 |
1 342 |
118 |
Атомн. и молек. физ. |
372 |
39 |
1 339 |
107 |
«Капитанская дочка» |
1160 |
2384 |
29 345 |
4783 |
В столбцах 1—4 помещены следующие величины:
— наибольшее значение базисного подсчета;
— число подсчетов базисного подсчета, равного 1;
— общее число наблюдений;
— сумма подсчетов.
Например, в «Капитанской дочке» одно слово появляется 1160 раз, в то время как 2384 слова появляются только по одному разу. Общее число различных слов 4783, и появляются они всего 29 345 раз.
На илл. 1 приведены сами данные, а на илл. 2 — три графика остатков, полученных в результате вычитания из корней подсчетов значений аппроксимирующих зависимостей, приведенных на илл. 1, Б, Эти зависимости представляют собой линейные функции, связывающие значения корней из числа подсчетов, приходящихся на октаву (или логарифмов корней), с номерами ячеек. В иллюстрациях мы не замечаем ничего характерного, что привлекло бы наше внимание. Тем не менее по крайней мере один из примеров имеет особенность, вполне заслуживающую рассмотрения.
Пять наибольших значений базисных подсчетов в этих примерах равны:
"•«и * 3
Как видно, в примере с «Атомной и молекулярной физикой» наибольший базисный подсчет значительно дальше отстоит от следующего по величине, чем в других примерах. Желательно было бы найти какой-нибудь способ улавливать подобные особенности. Но какой?
Хорошую идею в этом отношении можно почерпнуть из анализа корней от пяти наивысших базисных подсчетов и их разностей. Для корней из подсчетов имеем:
Электр, св-ва тв. тел |
16,0 |
11,4 |
11,3 |
8,7 |
8,3 |
Атомн. и молек. физика |
19,3 |
8,9 |
7,8 |
7,3 |
7,1 |
«Капитанская дочка» |
34,1 |
27,9 |
26,9 |
24,1 |
21,9 |
Разности корней равны:
Электр, св-ва тв. тел |
4,6 |
0,1 |
2,6 |
0,4 |
Атомн. и молек. физика |
10,4 |
1,1 |
0,5 |
0,2 |
«Капитанская дочка» |
6,2 |
1,0 |
2,8 |
2,2 |
Во всех случаях наивысшее значение весьма заметно отделено от следующего по величине. «Оторванность» наибольшего базисного подсчета настолько велика, что этот подсчет, по-видимому, связан с каким-то характерным объектом. Наоборот, если бы мы интересо-
Иллюстрация 1 главы 18: три множества событий Подсчеты в октавных ячейках для распределений с длинными хвостами
А) ДАННЫЕ по ОКТАВАМ
Иллюстрация 1 (продолжение)
Б) АППРОКСИМАЦИИ
Ячейки представляют собой октавы: ячейка #0 содержит базисные подсчеты, равные 1; ячейка #1 — базисные подсчеты, равные 2 и 3, и т, д,
Электр, св-ва тв. тел: У подсчет/ячейка — 5,6—0,655.
Агомн. и молек. физика: V подсчет/ячейка = 5,6—0,7В,
«Капитанская дочка»: \%У подсчет/ячейка = 1,70—0,165,
В) БУКВЕННЫЕ ЗНАЧЕНИЯ
Г) УПРАЖНЕНИЯ
1а) Ввиду довольно устойчивой (хотя и слабой) тенденции смещения остатков для данных по «Капитанской дочке» в положительную сторону (откуда это видно?) попытайтесь использовать аппроксимацию lg У подсчет/ячейка = 0,01+1,70— —0,165 и найти для нее остатки и их буквенные значения, Приводит ли это к улучшению результатов?
Д) ИСТОЧНИКИ:
Для разделов «Электрические свойства твердых тел» и «Атомная и молекулярная физика» — соответственно габл. 20 и 22 из работы:
Keenan S., Atherton P. The Journal Literature of Phisics (AIP/DRP PA1 (1964)). American Institute of Physics, New York, 1964; для «Капитанской дочки» — табл. 32 на с. 97 из работы:
Herdan G. The Advanced Theory of Language as Choice and Chance (Kommunikation und Kybernetik in Einzeldarstellungen, Band 4), Springer, New York, 1966. (Источники для последней работы: Josselson Н. Н. The Russian Word Count (Frequency Analysis of Grammatical Categories of Standard Literary Russian). Wayne University Press, Detroit, 1953.)
вались некоторым названием, естественно было бы начать с извлечения квадратного корня из соответствующего ему подсчета.
Другой важной для нашего случая величиной является общее число объектов: наименований журналов или русских слов, причем опятъ-таки естественно брать не само число, а квадратный корень из него,
возможный подход
Имеются две крайние ситуации. С одной стороны, много объектов наблюдения (много журналов, много слов) появляется только один раз. С другой стороны, какой-нибудь один объект (один из журналов, одно из слов) появляется много раз. Здесь ощущается некоторая симметрия между двумя типами подсчетов:
<£> числом появлений, т. е. величиной базисного подсчета, и
() числом объектов, появляющихся не менее заданного числа раз, 1, е. полным рангом (отсчитываемым сверху).
Иллюстрация 2 главы 18: три множества событий