Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ЭКОНОМЕТРИКА и математическая экономика / Эконометрика. Учебник продвинутый (2005)

.pdf
Скачиваний:
512
Добавлен:
20.04.2015
Размер:
4.02 Mб
Скачать

1.9. Статистические совокупности и группировки

43

Результаты группировки применяются для решения задач 3-х типов.

1) Используя информацию о групповых численностях, анализируют распределение частот или эмпирических вероятностей признаков, теоретическим обобщением которых являются функции распределения вероятностей и плотности вероятностей случайных величин. Потому такие распределения частот иногда называют эмпирическими функциями распределения вероятностей и плотностей вероятностей признаков. Если группировка является множественной, то говорят о совместном распределении признаков (группирующих), которое может использоваться в анализе зависимостей между этими признаками. В таком случае группирующие признаки делятся на факторные и результирующие. Так, в иллюстрационном примере можно изучать зависимость оценки, полученной на экзамене, от факторов «студенческая группа» и «пол». Приемы построения эмпирических распределений вероятностей и простейшие методы анализа связей с помощью совместных распределений изучаются в этой части книги.

При решении задач этого типа группирующие признаки являются, как правило, количественными.

2)Все группирующие признаки выступают факторными, и исследуется их влияние на некоторые другие — результирующие признаки xj , j > n. В этом случае группирующие (факторные) признаки являются обычно качественными, и используются методы дисперсионного анализа, элементарные сведения о котором даются в главе 4 этой части (более основательно эти методы рассматриваются в III-й части книги). В иллюстрационном примере при n = 2 признак «оценка» не входит

вчисло группирующих, и если взять его в качестве результирующего, то можно также исследовать влияние факторов «студенческая группа» и «пол» на оценку. В пункте 1) говорилось о других методах изучения этого влияния.

3)Анализируются зависимости между признаками внутри выделенных групп и/или между группами, т.е. внутригрупповые и/или межгрупповые связи. Во втором случае в анализе используются средние значения признаков в группах. В обоих случаях факторные и результирующие признаки не входят во множество группирующих признаков. Методы регрессионного анализа, используемые для анализа связей, и методы проверки гипотез о существенности различий параметров связей между различными группами изучаются во II-й и III-й частях книги. В главе 4 настоящей части даются общие сведения о некоторых из этих методов.

Особенность рассмотренных методов группировки заключается в том, что деление на группы всякий раз проводится по значениям строго одного признака. В одну группу попадают наблюдения-объекты с близкими (или — для качественных признаков — совпадающими) значениями признака. Каждый последующий признак лишь «дробит» ранее выделенные группы. Между тем, существуют методы выделения групп сразу по нескольким признакам. При таких группировках используются

44 Глава 1. Основные понятия

различные меры близости векторов. Наблюдения i и i попадают в одну группу, если по выбранной мере близки вектора xij и xi j , j = 1, . . . , n. Методы таких группировок используются в кластерном анализе (кластер — класс). Существуют и обратные задачи, когда новое наблюдение-объект надо отнести к какому-то известному классу. Такие задачи решаются методами распознавания образов, они возникают, например, при машинном сканировании текстов или машинном восприятии человеческой речи.

Признаки также образуют совокупности разной степени однородности, понимаемой в этом случае только в качественном смысле. Как и в анализе совокупности объектов можно обозначить через Ij множество объектов, обладающих j-м признаком. Степень однородности совокупностей признаков тем выше, чем больше общее пресечение этих множеств для признаков, входящих в совокупность. Однородные совокупности признаков часто называют системами, акцентируя внимание на наличии связей между признаками совокупности.

Совокупности признаков обычно также группируются. Особенностью их группировок является то, что они имеют строго иерархический характер, т.е. последовательность групп признаков разного порядка строго определена. Когда же речь идет о группировках наблюдений-объектов, то их иерархия (последовательность групп от низших порядков к высшим) условна, она всегда может измениться при изменении порядка группирующих признаков. Группы признаков обычно называют классами и подклассами или классами разного уровня (иерархии).

На нулевом уровне иерархии признаков размещается имя всей совокупности признаков, например, «показатели развития промышленных предприятий». Далее следуют классы первого уровня с их именами, например, «материальные ресурсы», «затраты», «результаты», «финансовые пассивы», «финансовые активы»

ит.д. Эти классы детализируются на втором уровне: например, «материальные ресурсы» делятся на «основной капитал», «запасы готовой продукции», «производственные запасы», «незавершенное производство». На третьем уровне иерархии «запасы готовой продукции», например, делятся по видам продукции. И так далее. Разные направления иерархии могут иметь разное количество уровней детализации (иерархии). Например, «материальные ресурсы» могут иметь 4 уровня, а «финансовые активы» — 3. В исходной матрице наблюдений только признаки низшего уровня иерархии (классов высшего порядка) имеют числовые значения (после группировки признаков и обработки матрицы наблюдений могут быть введены столбцы со значениями итоговых показателей по некоторым или всем классам

иподклассам признаков).

Сама группировка формально может быть проведена так же, как и группировка объектов (но с некоторыми отличиями). Разным классам одного уровня, образующим один класс предыдущего уровня, присваиваются различные целые числаранги, т.е. классы «измеряются» в номинальной шкале. Как видно, «измерение»

1.10. Задачи

45

классов одного уровня зависит от результатов «измерения» классов предыдущего уровня, чего не было при группировке совокупностей объектов. Далее, в матрицу наблюдений вводятся строки «классы первого уровня», «классы второго уровня» и т.д. с рангами, присвоенными соответствующим классам, в столбцах признаков. И, наконец, осуществляется перестановка столбцов матрицы наблюдений по возрастанию рангов сначала классов первого уровня, потом второго уровня и т.д. Ранги классов образуют мультииндексы или коды признаков. После завершения группировки введенные строки классов можно убрать.

Обычно эти операции не проводятся, т.к. признаки группируются уже при составлении матрицы наблюдений.

Как исходные массивы и матрицы наблюдений, так и результаты их группировок или других обработок могут изображаться в виде таблиц и графиков. Таблица — это визуализированный двухмерный массив с общим названием-титулом, названиями строк и названиями столбцов. Первый столбец (столбцы), в котором размещены названия строк, называется подлежащим таблицы, первая строка (строки) с названиями столбцов — сказуемым таблицы. Подлежащее и сказуемое часто включают мультииндексы-коды соответствующих объектов или признаков. В титул обычно выносится общее имя совокупности элементов (объектов или признаков) сказуемого и/или подлежащего.

Существует несколько вариантов таблиц для массивов типа {xtij }, имеющих 3 размерности: время t, объекты i и признаки j. Если в подлежащем — время, а в сказуемом — объекты, то в титул должно быть вынесено имя признака; если в подлежащем — объекты, в сказуемом — признаки, то в титуле должно быть указано время и т.д. Всего таких вариантов — 6.

Если в табулируемой матрице не произведено группировок, то таблица является простой с простыми именами строк и столбцов. Если строки и/или столбцы сгруппированы, то их имена в таблице являются составными: кроме индивидуальных имен строк и столбцов они включают и имена их групп и классов.

В случае, когда столбцов таблицы не слишком много, информация может быть представлена (визуализирована) графиком. Ось абсцисс соответствует обычно подлежащему таблицы, а ось ординат — сказуемому. Сами значения показателейпризнаков изображаются в виде различных графических образов, например, в виде «столбиков». Если в подлежащем размещены моменты времени, график выражает траектории изменения показателей.

1.10. Задачи

1.Определить пункты, которые являются выпадающими из общего ряда.

1.1а) отношений, б) порядковая, в) количественная, г) классификаций;

1.2а) Пуассон, б) Рамсей, в) Бернулли, г) Байес;

46

Глава 1. Основные понятия

1.3а) темпы роста, б) относительные, в) производные, г) первичные;

1.4а) Кейнс, б) Байес, в) Синклер, г) Бернулли;

1.5а) фондоемкость, б) материалоемкость, в) трудоемкость, г) срок окупаемости инвестиций;

1.6а) Стивенс, б) Кэмпбел, в) реляционная структура, г) Тарский;

1.7а) капитал, б) население, в) инвестиции, г) внешний долг;

1.8а) Пуассон, б) Рамсей, в) Бернулли, г) Байес;

1.9а) Суппес, б) Стивенс, в) Пуассон, г) Пфанцагль;

1.10а) величина-признак, б) величина-показатель, в) показатель-определе- ние, г) показатель-наблюдение;

1.11а) Герман, б) Кетле, в) Моргенштерн, г) Синклер;

1.12а) Тарский, б) операциональная, в) репрезентативная, г) Кэмпбел;

1.13а) Зинес, б) Суппес, в) Моргенштерн, г) Петти;

1.14а) статистика, б) statistics, в) информация, г) statistic;

1.15а) наименований, б) интервальная, в) ординальная, г) шкалирование;

1.16а) Суппес, б) интервальная, в) Стивенс, г) порядковая;

1.17а) Бернулли, б) субъективная, в) Байес, г) объективная;

1.18а) Пфанцагль, б) Зинес, в) Нейман, г) Кэмпбел;

1.19а) управляемый эксперимент, б) пассивное наблюдение, в) статистика, г) операциональное определение;

1.20а) Кетле, б) Кейнс, в) Петти, г) Герман;

1.21а) производственные мощности, б) выпуск продукции, в) затраты, г) амортизационные отчисления;

1.22а) Пуассон, б) Рамсей, в) Бернулли, г) Байес;

1.23а) кластер, б) класс, в) группа, г) совокупность;

1.24а) абсолютная, б) относительная, в) экстенсивная, г) интенсивная;

1.25а) дискретный, б) непрерывный, в) моментный, г) интервальный;

1.26а) подлежащее, б) предлог, в) сказуемое, г) таблица.

2.Какой тип — запаса или потока — имеют следующие величины: а) инвестиции; б) население; в) основные фонды; г) активы?

3.К какому классу относятся и какую размерность имеют следующие интенсивные величины: а) фондоемкость; б) материалоемкость; в) трудоемкость; г) фондоотдача?

1.10. Задачи

 

 

 

 

47

 

 

 

 

Таблица 1.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Объем

Абсолютный

 

Темп

Абсолютное

 

 

 

Темп роста

значение

 

 

Год

производства,

прирост,

 

прироста

 

 

 

(годовой)

1% прироста,

 

 

 

млрд. руб.

млрд.

 

(годовой), %

 

 

 

 

 

 

 

 

млрд.

 

 

 

 

 

 

 

 

 

 

 

1

2

3

 

4

5

6

 

 

 

 

 

 

 

 

 

 

 

1992

127

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1993

 

 

 

1.102

 

 

 

 

 

 

 

 

 

 

 

 

 

1994

 

 

 

 

7.1

 

 

 

 

 

 

 

 

 

 

 

 

1995

164.6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1996

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1997

 

 

 

 

9.9

1.75

 

 

 

 

 

 

 

 

 

 

4.Пусть yt — значение величины в момент времени t. Запишите формулу моментного темпа прироста и непрерывного темпа роста.

5.Имеются данные об объеме производства в отрасли (табл. 1.2). Вычислить и вставить в таблицу недостающие показатели.

6.Была проведена группировка студентов НГУ по трем признакам: 1-й признак: место постоянного жительства (город; село);

2-й признак: средний балл в аттестате (выше 4.5; от 3.5 до 4.5; ниже 3.5);

3-й признак: средний балл за вступительные экзамены (выше 4.5; от 3.5 до 4.5; ниже 3.5).

Определите:

а) общее число групп и число групп высшего порядка;

б) количество классов групп 1-го, 2-го и 3-го порядка;

в) количество групп в классах 2, 13, 23;

г) число конечных групп в каждой группе класса 2, 13, 23.

д) Число элементов конечной группы 221 равно 5, в остальных конечных группах по 2 элемента. Каково значение линейного индекса второго элемента конечной группы 232?

е) Сколько всего элементов в совокупности?

Глава 2

Описательная статистика

Исходный массив наблюдений может достигать значительных размеров, и непосредственно по его информации трудно делать какие-либо содержательные заключения о свойствах изучаемых совокупностей. Задача описательной статистики — «сжать» исходный массив, представить его небольшим набором числовых характеристик, которые концентрированно выражают свойства изучаемых совокупностей. Граница между описательной статистикой, с одной стороны, и математической статистикой, эконометрией, анализом данных, с другой стороны, достаточно расплывчата. Обычно в описательной статистике даются элементарные сведения, достаточные для проведения начальных этапов экономико-статистического исследования, которые более углубленно и более строго рассматриваются в других научных дисциплинах статистического ряда (в последующих разделах книги).

2.1.Распределение частот количественного признака

Пусть имеются наблюдения xi , i = 1, . . . , N за некоторой непрерывной количественной величиной-признаком, т.е. матрица наблюдений имеет размерность N × 1. Такую матрицу наблюдений обычно называют рядом наблюдений. В статистике совокупность этих значений иногда называется также вариационным рядом. Пусть проведена группировка совокупности по этому признаку с выделением k групп. В соответствии с обозначениями предыдущей главы мультииндексом группы является I , равный i1 , где i1 — индекс группы. В этом и ряде последующих

x¯l =

2.1. Распределение частот количественного признака

49

пунктов (при n = 1) в качестве индекса группы будет использоваться не i1 , чтобы не путать его с линейным индексом i наблюдения, а l. Соответственно, zl , l = 0, 1, . . . , k границы полуинтервалов, Nl — групповые численности, которые в этом случае называют частотами признака. Следует иметь в виду, что x — случайная величина, но все z — детерминированы.

Размеры полуинтервалов,

l = zl − zl−1,

обычно берут одинаковыми. При выборе размера полуинтервалов можно использовать одно из следующих правил:

∆ = 3.5sN 1/3 (правило Скотта)

или

∆ = 2 IQR N 1/3 (правило Фридмена—Диакониса),

где s — среднеквадратическое отклонение, IQR = x0.75 −x0.25 — межквартильное расстояние (определение величин s, x0.25 и x0.75 дается ниже). В литературе также часто встречается правило Стёрджесса для количества групп:

k = 1 + log2 N ≈ 1 + 1.44 ln N,

однако было показано, что оно некорректно, поэтому использовать его не рекомендуется. В качестве значения признака на l-м полуинтервале можно принять среднее значение признака на этом полуинтервале:

1

Nl

xl

(использовано введенное в предыдущей главе обозначение xl всех наблюдений, попавших в l-ю группу). Однако, как правило, в качестве этого значения принимается середина полуинтервала:

x¯

 

=

1

(z + z

) = z

+

l

,

 

2

2

 

l

 

 

l l−1

l−1

 

 

αl

=

Nl

,

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

относительные

частоты признака или оценки вероятностей (эмпиричес-

кие вероятности)

попадания значений признака в l-й полуинтервал,

то есть

α1 = P (z0 x z1), αl = P (zl−1 < x zl) , l = 2, . . . , k.

 

 

fl =

αl

(2.1)

 

l

 

плотности относительной частоты или оценки плотности вероятности.

1
Рис. 2.2

50

f, F

1

кумулята

гистограмма

полигон

Рис. 2.1. Графическое изображение

плотностей частоты

Глава 2. Описательная статистика

Очевидно, что

 

 

 

αl = 1, или

fll = 1.

(2.2)

Далее:

 

 

 

 

l

l

 

Fl =

αl , или Fl =

fl l ,

(2.3)

 

l =1

l =1

 

накопленные относительные частоты или оценки вероятностей того, что значение признака не превысит zl , т.е. Fl = P (x zl).

Крайние значения этих величин равны 0 и 1:

F0 = 0, Fk = 1.

Числа αl , fl , Fl (l = 1, . . . , k) характеризуют разные аспекты распределения частот количественного признака. Понятно, что, если размеры полуинтервалов одинаковы, αl и fl различаются с точностью до общей нормировки и являются одинаковыми характеристиками распределения.

Графическое изображение плотностей частоты называется гистограммой, а накопленных частот — кумулятой. Поскольку плотности частот неизменны на каждом полуинтервале, гистограмма ступенчатая функция (точнее, график ступенчатой функции). Накопленные частоты линейно растут на каждом полуинтервале, поэтому кумулята — кусочно-линейная функция. Вид этих графиков приведен на рисунке 2.1.

Еще один графический образ плотностей частоты называется полигоном. Этот график образован отрезками, соединяющими середины ступенек гистограммы. При этом первый отрезок соединяет середину первой ступеньки с точкой z0 оси абсцисс, последний отрезок — середину последней ступеньки с точкой zk .

F

f

Теоретически можно представить ситуацию, когда N и k → ∞, при этом следует допустить, что z0 → −∞, а zk +. В ре-

зультате функции f (z) и F (z), графиками которых были гистограмма и кумулята, станут гладкими (рис. 2.2). В математической статистике их называют, соответственно, функцией плотности распределения вероятности и функцией распределения вероятностей случайной величины (см. Приложение A.3.1).

2.1. Распределение частот количественного признака

51

Формулы (2.1–2.3) преобразуются, соответственно, в

 

 

 

dF (z)

 

+

z

 

 

 

= f (z) ,

f (z) dz = 1, F (z) =

f z

dz .

 

 

 

dz

 

 

−∞

 

 

 

 

−∞

 

 

Обычно функции f и F

записываются

 

 

 

 

 

с аргументом, обозначенным символом слу-

 

 

 

 

 

 

 

 

 

 

чайной величины: f (x) и F (x). При этом

 

 

 

 

 

предполагается, что в такой записи x есть

 

 

 

 

 

детерминированный «образ»

соответствую-

 

 

 

 

 

щей случайной величины (в математической

 

 

 

 

 

статистике для этого часто используют со-

 

 

 

 

 

ответствующие прописные символы: f (X)

 

 

 

 

 

и F (X)). Такие функции являются теорети-

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

ческими и выражают различные законы рас-

 

 

 

 

 

пределения, к которым лишь приближаются

Рис. 2.3

эмпирические распределения.

 

 

 

 

 

 

 

Наиболее распространенным в природе является так называемый закон нормального распределения, плотность которого в простейшем случае (при нулевом математическом ожидании и единичной дисперсии) описывается следующей функ-

цией:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f (x) =

1

e

x2

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2π

 

 

 

 

 

 

 

 

 

 

Ее график, часто называемый кривой

 

 

асимметрия

 

Гаусса, изображен на рисунке 2.3.

идеальная правая

левая

идеальная

Наиболее вероятное значение величи-

 

 

 

 

 

 

 

ны, имеющей такое распределение, — нуль.

 

 

 

 

 

 

 

Распределение ее симметрично, и вероят-

 

 

 

 

 

 

 

ность быстро падает по мере увеличения ее

 

 

 

 

 

 

 

абсолютной величины. Обычно такое рас-

 

 

 

 

 

 

 

пределение имеют случайные ошибки изме-

 

 

 

 

 

 

 

рения (при разной дисперсии).

 

 

 

 

 

 

 

 

Различают несколько типов распределе-

 

 

 

 

 

 

 

ний признака (случайной величины).

 

 

 

 

Рис. 2.4

 

 

На рисунке 2.4 показаны асимметрич-

 

 

 

 

 

ные или скошенные распределения: с пра-

 

 

 

 

 

 

 

вой и левой асимметрией, идеальная правая и идеальная левая асимметрия. При правой (левой) асимметрии распределение скошено в сторону больших (меньших)

Рис. 2.6

52 Глава 2. Описательная статистика

значений. При идеальной правой (левой) асимметрии вероятность падает (увеличивается) с ростом значения величины на всем интервале ее значений, наиболее вероятно ее минимальное (максимальное) значение. В данном случае идеальными названы распределения с предельной асимметрией.

 

 

 

 

 

 

На рисунке 2.5 приведен вид высоко-

1

 

 

 

 

или островершинных и низко- или плоско-

 

 

 

 

 

 

 

 

вершинных распределений. В первом слу-

 

 

 

 

 

 

 

предельное

 

 

 

 

чае основная часть значений признака со-

 

 

 

 

 

 

 

 

 

 

островершинное

 

 

остро-

средоточена в узкой центральной области

 

 

 

 

вершинное

 

 

 

 

распределения, во втором — центральная

 

плоско-

 

 

 

 

 

вершинное

 

 

 

 

область распределения «размыта». Плос-

 

 

 

 

 

 

ковершинное распределение в пределе пре-

 

 

 

 

равномерное

вращается в равномерное, плотность кото-

 

 

 

 

 

 

рого одинакова на всем интервале значений.

 

 

 

 

 

 

Предельным островершинным распределе-

 

 

 

 

 

 

 

 

 

 

 

 

нием является вертикальный отрезок еди-

 

 

 

 

 

 

 

Рис. 2.5

 

 

ничной длины — распределение детермини-

 

 

 

рованной величины.

Распределения с одним пиком плотности вероятности называют унимодальными. На рисунке 2.6 приведен пример бимодального распределения и предельного бимодального распределения, называемого U-образным. В общем случае распределение с несколькими пиками плотности называют полимодальным.

В математической статистике множе-

 

ство всех теоретически возможных значе-

бимодальное

ний случайной величины x, характеризу-

U-образное

емое функциями f и F , называют гене-

 

ральной совокупностью, а ряд наблюде-

 

ний x1, . . . , xN выборочной совокупностью, или выборкой.

Вообще говоря, гистограмму и кумуляту можно построить непосредственно по дан-

ным ряда наблюдений без предварительной группировки. Если предположить для простоты, что все значения в ряде наблюдений различны, то k принимается равным N . В качестве границ полуинтервалов zi , i = 1, . . . , N − 1 принимаются полусуммы двух соседних значений в ряде наблюдений, упорядоченном по возрастанию (строго говоря, само упорядочение является операцией группировки в простейшем случае):

1

zi = 2 (xi + xi+1).