Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
4
Добавлен:
19.01.2025
Размер:
6.84 Mб
Скачать

 

 

∙ ∑

 

̅,

(1.5)

 

На основе стандартного отклонения оценивается стандартная ошибка среднего ̅(по формуле (1.6)), которая показывает отклонение среднего по выборке от среднего по генеральной совокупности. Можно в таком случае сказать, что стандартное отклонение выборки – это степень, в которой отдельные наблюдения в выборке отклоняются от выборочного среднего.

̅

 

,

(1.6)

 

Коэффициент вариации в отчете не представлен, но может быть легко восстановлен на основе среднего и стандартного отклонения по выборке (формула (1.7)).

 

 

̅100%

(1.7)

 

Это относительная, а не абсолютная характеристика Значение коэффициента вариации используется для сравнения наборов данных с различными единицами измерения или сильно отличающимися средними.

Как правило, однородной считается выборка, вариация которой не превышает 30-35%. Чем выше значения дисперсии, стандартного отклонения, коэффициента вариации, тем неоднородней данные.

Размах (интервал) оценивается как разница между максимальным и минимальным значением (1.8). Он показывает границы изменения значений в выборке. Поскольку размах зависит только от двух наблюдений, его значение может быть излишне велико и неустойчиво.

В заключение рассмотрим коэффициенты

(1.8)

асимметрии и эксцесса,

которые используются для оценки близости выборочного распределения к нормальному закону. Коэффициент асимметрии характеризует «скошенность» («сдвиг») выборочного распределения по отношению к математическому ожиданию вправо (тогда коэффициент положительный) или влево (отрицательный). Коэффициент эксцесса позволяет количественно оценить тенденцию в данных к наблюдениям, далеким от среднего. Положительное значение коэффициента характеризует «вытянутость» вверх выборочного

распределения

относительно

кривой

нормального

распределения;

отрицательное

значение – наоборот, «пологость». В случае нормального

распределения обе эти характеристики равны 0. Соответственно, чем более отличны от 0 значения коэффициентов, тем скорее анализируемые данные не соответствуют нормальному закону распределения. Более подробно эти характеристики будет описаны в Лабораторной работе №2.

11

Итак, судя по Рисунку 2, за пять лет численность населения в Дальневосточном федеральном округе в среднем снизилась. Судя по тому, что медиана и среднее стали несколько ближе друг к другу, объем наблюдений, близких к аномально большим, несколько снизился. Дисперсия незначительно уменьшилась, однако коэффициент вариации практически не изменился и все также составляет 77% – формально данные не являются однородными. Эксцесс и асимметрия близки к нулю, то есть можно сделать предположение о близости выборочных данных к нормальному закону распределения. Наибольшая численность и в 2014, и в 2019 – в Приморском крае, причем там фиксируется спад на 2%. Минимальное значение численности населения, аналогично, сохраняет один регион – Чукотский автономный округ. Здесь также численность населения снизилась на 2%.

В MS Excelтакже есть возможность расчета описательных статистик с помощью встроенных функций, представленных в таблице 1.2.

Таблица 1.2 - Встроенные функции MS Excel для расчета описательных статистик

Статистика

Функция MS Excel

Среднее

СРЗНАЧ

Стандартная ошибка (среднего)

Медиана

МЕДИАНА

Мода

МОДА

Стандартное отклонение

СТАНДОТКЛОН.В

Дисперсия выборки

ДИСП.Г

Эксцесс

ЭКСЦЕСС

Асимметричность

СКОС

Интервал

Минимум

МИН

Максимум

МАКС

Сумма

СУММ

Рассчитаем на примере данных 2014 года эти характеристики (Рисунок 1.3). Результаты полностью аналогичны предыдущим расчетам.

Далее визуализируем выборочное распределение одномерного ряда с помощью гистограммы. Гистограмма – это графическое изображение числа наблюдений выборки, соответствующих каждому интервалу (в примере, по умолчанию, число интервалов равно семи). По горизонтальной оси откладываются значения наблюдаемой величины, по вертикальной – частота их появления.

12

Рис. 1.3. Пример расчета описательных статистик с помощью встроенных функций

Необходимо количество интервалов гистограммы (k) и ширину одного интервала (h).

Возможные варианты расчета количества интервалов – формулы (1.9) и (1.10) (формулы Стерджиса).

 

 

 

 

 

(1.9)

 

,

,

(1.10)

1

3,322lg

 

 

где полученное число округляется вверх до целого, например: 6.1 ≈ 7; 2.3 ≈ 3. Формула ширины интервала – (1.11).

 

 

,

(1.11)

На рисунке 1.4 представлены

формулы

расчета

для построения

гистограммы, а на рисунке 1.5 – результаты.

Рис. 1.4. Построение гистограммы вручную

13

Рис. 1.5. Результаты построения гистограммы1

Здесь в столбце «Интервал» выведен номер интервала (от 1 до k); в столбце «НГ» - нижние границы интервалов; в столбце «ВГ» - верхние границы.

По полученному столбцу частот можно построить столбчатую диаграмму: «Вставка» → «Гистограмма(столбчатаядиаграмма)». Здесь по вертикальной оси измерена частота попаданий наблюдений в интервалы, отмеренные по горизонтальной оси.

Также можем использовать функцию «Гистограмма» («Анализ данных» → «Гистограмма») (Рис. 1.6, Рис. 1.7). Поля настройки во многом повторяют окно «Описательные статистики».

Рис. 1.6. Построение гистограммы с помощью пакета «Анализ данных»

1 На рисунке боковой зазор равен 0%. Это значение корректно использовать при построении

гистограммы на количественных данных.

14

Мы можем задать «Интервалы карманов» самостоятельно, вставив сюда ссылку на столбец, где содержатся верхние границы интервалов. В таком случае мы получим распределение, аналогичное только что построенному. Если же оставим это поле пустым, то результат будет рассчитан автоматически.

Рис. 1.7. Результаты построения гистограммы с помощью пакета «Анализ данных»

Корректно оформим итоговую гистограмму и получим аналогичный график для 2019 года. Результат представлен на рисунке 1.8.

Видим, что форма распределения показателя практически не изменилась за пять лет. Границы интервалов несколько изменились, а также «правый край» стал несколько ближе к центру распределения, что и предполагалось выше.

Выборка мала, поэтому мы не можем с достаточной уверенностью судить о близости эмпирического распределения к нормальному: даже незначительные изменения в порядке расчета могут трансформировать итоговый график. Тем не менее, судя по диаграммам на рисунке 1.8, выборочное распределение показателя в обоих периодах достаточно близко к колоколообразной кривой нормального распределения. Именно это мы и предполагали на основе анализа коэффициентов асимметрии и эксцесса.

15

Рис. 1.8. Частотные гистограммы по показателю «Численность населения» в Дальневосточном федеральном округе в 2014 и 2019 годах

Пример реализации лабораторной работы №1

Исходными данными для лабораторной работы №1 была взята официальная статистика Росстата, показатель «Численность населения, тыс.чел." по Центральному федеральному округу, 2014, 2019 гг.» (Таблица 1.3)

Таблица 1.3 –Исходные данные для примера реализации лабораторной работы №1 обучающимися

№ наблюдения

Субъект Федерации

2014

2019

1

Центральный федеральный округ

38951

39434

2

Белгородская область

1548

1549

3

Брянская область

1233

1193

4

Владимирская область

1406

1358

5

Воронежская область

2331

2324

6

Ивановская область

1037

997

7

Калужская область

1011

1003

8

Костромская область

654

633

9

Курская область

1117

1104

10

Липецкая область

1158

1139

11

Московская область

7231

7691

12

Орловская область

765

734

16

Продолжение таблицы 1.3

 

 

 

 

 

 

 

13

Рязанская область

 

1135

 

1109

14

Смоленская область

 

965

 

935

15

Тамбовская область

 

1062

 

1007

16

Тверская область

 

1315

 

1260

17

Тульская область

 

1514

 

1466

18

Ярославская область

 

1272

 

1254

19

г.Москва

 

 

12197

 

12678

Задание

1, Задание 2. В

изучаемом массиве данных

генеральной

совокупностью являются данные о численности населения по всем субъектам РФ за все годы, которые представлены статистикой Росстат. Выборка - численность населения по Центральному федеральному округу за 2014 и 2019 гг.

Описательные статистики, полученные с помощью надстройки «Анализ данных», с использованием функций и формул представлены на рисунке 1.9

Рис. 1.9. Реализация заданий 1,2 Лабораторной работы 1

Примечание. При составлении отчета следует округлять полученные значения до 1,2 знаков после запятой

Задание 3.

Анализируя численность населения в 2014 и 2019 годах по 18 регионам Центрального федерального округа (ЦФО), можно сделать вывод о том, что в среднем численность населения не изменилась. Абсолютный прирост за 5 лет составил 26 тысяч человек. По регионам ЦФО численность населения будет колебаться в среднем в пределах от [1480;2849] в 2014 году и в пределах от [1471;910] в 2019 году. Стандартная ошибка среднего в 2019 увеличилась, что говорит о том, что увеличился разрыв в численности населения в регионах, то есть, в каких-то регионах численность стала увеличиваться, а в каких то резко снижаться. В 2014 году в самом многочисленном регионе г. Москва численность населения в 18 раз была больше, чем в самом малочисленном регионе – Костромская область (12197 тыс. человек и 654 тыс. человек). В 2019 году этот разрыв сократился. В 2019 году в самом многочисленном регионе г. Москва

17

численность населения в 8 раз была больше, чем в самом малочисленном регионе

– Белгородская область (12678 тыс. человек и 1549 тыс. человек). Это может быть обусловлено изменением уровня жизни в регионах, инвестиционной привлекательности регионов и другими факторами.

Медиана значительно отличается от значения средней численности, что означает высокую неоднородность в численности населения по регионам. То есть половина рассматриваемых регионов имеет численность населения ниже 1195 (при среднем значении 2163) по 2014 году. Ситуация в 2019 году не изменилась. Половина регионов по численности населения не превышает 1166 (при среднем значении 2190). Это означает, что численность населения в различных регионах ЦФО существенным образом отличается. Большое значение стандартного отклонения и значение показателя «Интервал» также указывают на то, что численность населения достаточно сильно разнится по регионам. Интерпретируя показатель эксцесса и асимметрии, можно увидеть значительное отклонение полученных значений от 0, что может свидетельствовать о том, что исследуемые показатели имеют закон распределения, отличный от нормального закона распределения. Наблюдается островершинность и правосторонняя асимметрия. Для наглядности описания и выводов нарисуем диаграммы «ящик с усами» (Рисунок 1.10). Как видно из рисунка 1.10, два значения (регионы Московская область и г. Москва) являются аномальными. Исключим их и перестроим диаграмму «ящик с усами» без учета аномальных значений (Рисунок

1.11)

Рис. 1.10. Диаграммы «ящик с усами» по исходным данным лабораторной работы

18

Рис. 1.11. Диаграммы «ящик с усами» без аномальных значений

Задание 4.

Исключим два региона: г. Москва и Московская область из выборки. Гистограмма частот, полученная средствами Excel представлена на

рисунке 1.12.

Примечание: Москва и Московская область исключены из рассмотрения как аномальные

Рис. 1.12. Гистограмма численности населения регионов ЦФО за 2014 г.

Задание 5.

Исключим два региона: г. Москва и Московская область из выборки. 19

Гистограмма частот, полученная средствами Excel с учетом выделения трех «карманов» представлена на рисунке 1.13.

Примечание: Москва и Московская область исключены из рассмотрения как аномальные

Рис. 1.13. Гистограмма численности населения регионов ЦФО за 2019 г.

Задание 6.

Исключим два региона: г. Москва и Московская область из выборки. Определим оптимальное число «карманов» по формуле Стерджеса k 1

3,322lg n 4,99 5

Рассчитаем границы интервалов для построения гистограммы по численности населения регионов ЦФО по 2014 году (таблица 1.4). Визуальное представление гистограммы отображено на рисунке 1.14

Таблица 1.4 – Определение интервалов для построения гистограммы

 

 

Верхняя граница

 

номер интервала

Интервал кармана

интервала

Частота

1

654-989

989

3

2

989-1325

1325

9

3

1325-1660

1660

3

4

1660-1996

1996

0

5

1996-2331

2331

3

20