эконометрика для очно-заочного 4 курс 2024-2025 год / ЛабРаб_Эконометрика_ 2023
.pdf
|
|
∙ ∑ |
|
̅, |
(1.5) |
|
На основе стандартного отклонения оценивается стандартная ошибка среднего ̅(по формуле (1.6)), которая показывает отклонение среднего по выборке от среднего по генеральной совокупности. Можно в таком случае сказать, что стандартное отклонение выборки – это степень, в которой отдельные наблюдения в выборке отклоняются от выборочного среднего.
̅ |
√ |
|
, |
(1.6) |
|
Коэффициент вариации в отчете не представлен, но может быть легко восстановлен на основе среднего и стандартного отклонения по выборке (формула (1.7)).
|
|
̅∙ 100% |
(1.7) |
|
Это относительная, а не абсолютная характеристика Значение коэффициента вариации используется для сравнения наборов данных с различными единицами измерения или сильно отличающимися средними.
Как правило, однородной считается выборка, вариация которой не превышает 30-35%. Чем выше значения дисперсии, стандартного отклонения, коэффициента вариации, тем неоднородней данные.
Размах (интервал) оценивается как разница между максимальным и минимальным значением (1.8). Он показывает границы изменения значений в выборке. Поскольку размах зависит только от двух наблюдений, его значение может быть излишне велико и неустойчиво.
В заключение рассмотрим коэффициенты |
(1.8) |
асимметрии и эксцесса, |
которые используются для оценки близости выборочного распределения к нормальному закону. Коэффициент асимметрии характеризует «скошенность» («сдвиг») выборочного распределения по отношению к математическому ожиданию вправо (тогда коэффициент положительный) или влево (отрицательный). Коэффициент эксцесса позволяет количественно оценить тенденцию в данных к наблюдениям, далеким от среднего. Положительное значение коэффициента характеризует «вытянутость» вверх выборочного
распределения |
относительно |
кривой |
нормального |
распределения; |
отрицательное |
значение – наоборот, «пологость». В случае нормального |
|||
распределения обе эти характеристики равны 0. Соответственно, чем более отличны от 0 значения коэффициентов, тем скорее анализируемые данные не соответствуют нормальному закону распределения. Более подробно эти характеристики будет описаны в Лабораторной работе №2.
11
Итак, судя по Рисунку 2, за пять лет численность населения в Дальневосточном федеральном округе в среднем снизилась. Судя по тому, что медиана и среднее стали несколько ближе друг к другу, объем наблюдений, близких к аномально большим, несколько снизился. Дисперсия незначительно уменьшилась, однако коэффициент вариации практически не изменился и все также составляет 77% – формально данные не являются однородными. Эксцесс и асимметрия близки к нулю, то есть можно сделать предположение о близости выборочных данных к нормальному закону распределения. Наибольшая численность и в 2014, и в 2019 – в Приморском крае, причем там фиксируется спад на 2%. Минимальное значение численности населения, аналогично, сохраняет один регион – Чукотский автономный округ. Здесь также численность населения снизилась на 2%.
В MS Excelтакже есть возможность расчета описательных статистик с помощью встроенных функций, представленных в таблице 1.2.
Таблица 1.2 - Встроенные функции MS Excel для расчета описательных статистик
Статистика |
Функция MS Excel |
Среднее |
СРЗНАЧ |
Стандартная ошибка (среднего) |
– |
Медиана |
МЕДИАНА |
Мода |
МОДА |
Стандартное отклонение |
СТАНДОТКЛОН.В |
Дисперсия выборки |
ДИСП.Г |
Эксцесс |
ЭКСЦЕСС |
Асимметричность |
СКОС |
Интервал |
– |
Минимум |
МИН |
Максимум |
МАКС |
Сумма |
СУММ |
Рассчитаем на примере данных 2014 года эти характеристики (Рисунок 1.3). Результаты полностью аналогичны предыдущим расчетам.
Далее визуализируем выборочное распределение одномерного ряда с помощью гистограммы. Гистограмма – это графическое изображение числа наблюдений выборки, соответствующих каждому интервалу (в примере, по умолчанию, число интервалов равно семи). По горизонтальной оси откладываются значения наблюдаемой величины, по вертикальной – частота их появления.
12
Рис. 1.3. Пример расчета описательных статистик с помощью встроенных функций
Необходимо количество интервалов гистограммы (k) и ширину одного интервала (h).
Возможные варианты расчета количества интервалов – формулы (1.9) и (1.10) (формулы Стерджиса).
|
|
|
|
|
(1.9) |
|
|
√ |
, |
, |
|||
(1.10) |
||||||
1 |
3,322lg |
|
|
|||
где полученное число округляется вверх до целого, например: 6.1 ≈ 7; 2.3 ≈ 3. Формула ширины интервала – (1.11).
|
|
, |
(1.11) |
На рисунке 1.4 представлены |
формулы |
расчета |
для построения |
гистограммы, а на рисунке 1.5 – результаты.
Рис. 1.4. Построение гистограммы вручную
13
Рис. 1.5. Результаты построения гистограммы1
Здесь в столбце «Интервал» выведен номер интервала (от 1 до k); в столбце «НГ» - нижние границы интервалов; в столбце «ВГ» - верхние границы.
По полученному столбцу частот можно построить столбчатую диаграмму: «Вставка» → «Гистограмма(столбчатаядиаграмма)». Здесь по вертикальной оси измерена частота попаданий наблюдений в интервалы, отмеренные по горизонтальной оси.
Также можем использовать функцию «Гистограмма» («Анализ данных» → «Гистограмма») (Рис. 1.6, Рис. 1.7). Поля настройки во многом повторяют окно «Описательные статистики».
Рис. 1.6. Построение гистограммы с помощью пакета «Анализ данных»
1 На рисунке боковой зазор равен 0%. Это значение корректно использовать при построении
гистограммы на количественных данных.
14
Мы можем задать «Интервалы карманов» самостоятельно, вставив сюда ссылку на столбец, где содержатся верхние границы интервалов. В таком случае мы получим распределение, аналогичное только что построенному. Если же оставим это поле пустым, то результат будет рассчитан автоматически.
Рис. 1.7. Результаты построения гистограммы с помощью пакета «Анализ данных»
Корректно оформим итоговую гистограмму и получим аналогичный график для 2019 года. Результат представлен на рисунке 1.8.
Видим, что форма распределения показателя практически не изменилась за пять лет. Границы интервалов несколько изменились, а также «правый край» стал несколько ближе к центру распределения, что и предполагалось выше.
Выборка мала, поэтому мы не можем с достаточной уверенностью судить о близости эмпирического распределения к нормальному: даже незначительные изменения в порядке расчета могут трансформировать итоговый график. Тем не менее, судя по диаграммам на рисунке 1.8, выборочное распределение показателя в обоих периодах достаточно близко к колоколообразной кривой нормального распределения. Именно это мы и предполагали на основе анализа коэффициентов асимметрии и эксцесса.
15
Рис. 1.8. Частотные гистограммы по показателю «Численность населения» в Дальневосточном федеральном округе в 2014 и 2019 годах
Пример реализации лабораторной работы №1
Исходными данными для лабораторной работы №1 была взята официальная статистика Росстата, показатель «Численность населения, тыс.чел." по Центральному федеральному округу, 2014, 2019 гг.» (Таблица 1.3)
Таблица 1.3 –Исходные данные для примера реализации лабораторной работы №1 обучающимися
№ наблюдения |
Субъект Федерации |
2014 |
2019 |
1 |
Центральный федеральный округ |
38951 |
39434 |
2 |
Белгородская область |
1548 |
1549 |
3 |
Брянская область |
1233 |
1193 |
4 |
Владимирская область |
1406 |
1358 |
5 |
Воронежская область |
2331 |
2324 |
6 |
Ивановская область |
1037 |
997 |
7 |
Калужская область |
1011 |
1003 |
8 |
Костромская область |
654 |
633 |
9 |
Курская область |
1117 |
1104 |
10 |
Липецкая область |
1158 |
1139 |
11 |
Московская область |
7231 |
7691 |
12 |
Орловская область |
765 |
734 |
16
Продолжение таблицы 1.3
|
|
|
|
|
|
|
13 |
Рязанская область |
|
1135 |
|
1109 |
|
14 |
Смоленская область |
|
965 |
|
935 |
|
15 |
Тамбовская область |
|
1062 |
|
1007 |
|
16 |
Тверская область |
|
1315 |
|
1260 |
|
17 |
Тульская область |
|
1514 |
|
1466 |
|
18 |
Ярославская область |
|
1272 |
|
1254 |
|
19 |
г.Москва |
|
|
12197 |
|
12678 |
Задание |
1, Задание 2. В |
изучаемом массиве данных |
генеральной |
|||
совокупностью являются данные о численности населения по всем субъектам РФ за все годы, которые представлены статистикой Росстат. Выборка - численность населения по Центральному федеральному округу за 2014 и 2019 гг.
Описательные статистики, полученные с помощью надстройки «Анализ данных», с использованием функций и формул представлены на рисунке 1.9
Рис. 1.9. Реализация заданий 1,2 Лабораторной работы 1
Примечание. При составлении отчета следует округлять полученные значения до 1,2 знаков после запятой
Задание 3.
Анализируя численность населения в 2014 и 2019 годах по 18 регионам Центрального федерального округа (ЦФО), можно сделать вывод о том, что в среднем численность населения не изменилась. Абсолютный прирост за 5 лет составил 26 тысяч человек. По регионам ЦФО численность населения будет колебаться в среднем в пределах от [1480;2849] в 2014 году и в пределах от [1471;910] в 2019 году. Стандартная ошибка среднего в 2019 увеличилась, что говорит о том, что увеличился разрыв в численности населения в регионах, то есть, в каких-то регионах численность стала увеличиваться, а в каких то резко снижаться. В 2014 году в самом многочисленном регионе г. Москва численность населения в 18 раз была больше, чем в самом малочисленном регионе – Костромская область (12197 тыс. человек и 654 тыс. человек). В 2019 году этот разрыв сократился. В 2019 году в самом многочисленном регионе г. Москва
17
численность населения в 8 раз была больше, чем в самом малочисленном регионе
– Белгородская область (12678 тыс. человек и 1549 тыс. человек). Это может быть обусловлено изменением уровня жизни в регионах, инвестиционной привлекательности регионов и другими факторами.
Медиана значительно отличается от значения средней численности, что означает высокую неоднородность в численности населения по регионам. То есть половина рассматриваемых регионов имеет численность населения ниже 1195 (при среднем значении 2163) по 2014 году. Ситуация в 2019 году не изменилась. Половина регионов по численности населения не превышает 1166 (при среднем значении 2190). Это означает, что численность населения в различных регионах ЦФО существенным образом отличается. Большое значение стандартного отклонения и значение показателя «Интервал» также указывают на то, что численность населения достаточно сильно разнится по регионам. Интерпретируя показатель эксцесса и асимметрии, можно увидеть значительное отклонение полученных значений от 0, что может свидетельствовать о том, что исследуемые показатели имеют закон распределения, отличный от нормального закона распределения. Наблюдается островершинность и правосторонняя асимметрия. Для наглядности описания и выводов нарисуем диаграммы «ящик с усами» (Рисунок 1.10). Как видно из рисунка 1.10, два значения (регионы Московская область и г. Москва) являются аномальными. Исключим их и перестроим диаграмму «ящик с усами» без учета аномальных значений (Рисунок
1.11)
Рис. 1.10. Диаграммы «ящик с усами» по исходным данным лабораторной работы
18
Рис. 1.11. Диаграммы «ящик с усами» без аномальных значений
Задание 4.
Исключим два региона: г. Москва и Московская область из выборки. Гистограмма частот, полученная средствами Excel представлена на
рисунке 1.12.
Примечание: Москва и Московская область исключены из рассмотрения как аномальные
Рис. 1.12. Гистограмма численности населения регионов ЦФО за 2014 г.
Задание 5.
Исключим два региона: г. Москва и Московская область из выборки. 19
Гистограмма частот, полученная средствами Excel с учетом выделения трех «карманов» представлена на рисунке 1.13.
Примечание: Москва и Московская область исключены из рассмотрения как аномальные
Рис. 1.13. Гистограмма численности населения регионов ЦФО за 2019 г.
Задание 6.
Исключим два региона: г. Москва и Московская область из выборки. Определим оптимальное число «карманов» по формуле Стерджеса k 1
3,322lg n 4,99 5
Рассчитаем границы интервалов для построения гистограммы по численности населения регионов ЦФО по 2014 году (таблица 1.4). Визуальное представление гистограммы отображено на рисунке 1.14
Таблица 1.4 – Определение интервалов для построения гистограммы
|
|
Верхняя граница |
|
номер интервала |
Интервал кармана |
интервала |
Частота |
1 |
654-989 |
989 |
3 |
2 |
989-1325 |
1325 |
9 |
3 |
1325-1660 |
1660 |
3 |
4 |
1660-1996 |
1996 |
0 |
5 |
1996-2331 |
2331 |
3 |
20
