
- •Задача 1. Обработка результатов наблюдений
- •Построить вариационный (статистический) ряд:
- •Построить для полученного вариационного ряда гистограмму и эмпирическую функцию распределения:
- •Оценить точность выборки.
- •Проверить согласованность теоретического и статистического распределений, используя критерий Пирсона.
- •Задача 2. Статистический анализ связей
- •Список использованной литературы:
Проверить согласованность теоретического и статистического распределений, используя критерий Пирсона.
Критерий Пирсона
основан на сравнении эмпирических и
теоретических частот. Для его использования
необходимо, чтобы в каждом интервале
группировки было достаточное количество
данных. В случае малочисленных эмпирических
частот (niэмп<
5) следует объединить соседние интервалы,
в этом случае и соответствующие им
теоретические частоты также складываются.
При этом необходимо следить за
правильностью расчета значений функции
нормального распределения, теоретических
частот и выполнением условия
.
Объединим первый
и второй интервалы, частота для
объединенного интервала будет 6+14=20.
Объединим восьмой и девятый интервалы,
частота для объединенного последнего
интервала 2+2=4. Общее количество интервалов
группировки после объединения m=7.
Дополним скорректированную таблицу
столбцом «мера расхождения», выполнив
расчеты по формуле Пирсона
.
ai |
bi |
xi |
ni |
Ф(х) |
ni теор |
хи2 i |
|
|
|
|
|
|
|
0,2 |
4,2 |
2,2 |
20 |
0,154072 |
15,40716 |
1,369112 |
4,2 |
6,2 |
5,2 |
12 |
0,322178 |
16,81063 |
1,376639 |
6,2 |
8,2 |
7,2 |
23 |
0,538197 |
21,60187 |
0,090491 |
8,2 |
10,2 |
9,2 |
19 |
0,743251 |
20,50542 |
0,110521 |
10,2 |
12,2 |
11,2 |
17 |
0,887035 |
14,3784 |
0,477994 |
12,2 |
14,2 |
13,2 |
5 |
0,961504 |
7,446962 |
0,804036 |
14,2 |
18,2 |
16,2 |
4 |
0,998033 |
3,652877 |
0,032986 |
суммы |
|
|
100 |
|
100 |
4,26178 |
Фактически наблюдаемое значение статистики Пирсона составляет
=4,26.
Критическое
значение статистики
= 9,48 найдено для уровня значимости 5% и
числа степеней свободы k=m-3=4
с помощью функции ХИ2ОБР.
Сравним фактическое
значение статистики
с критической величиной
и сделаем вывод в соответствии со схемой:
теоретическое
и статистическое распределения
согласованы, на уровне значимости
следует принять гипотезу о нормальном
законе распределения случайной величины
Х
– стажа работ.
Задача 2. Статистический анализ связей
Исходными данными для моделирования являются социально-экономические показатели субъектов Сибирского федерального округа (Приложение 1). Требуется исследовать зависимость результирующего признака Y, соответствующего варианту задания, от факторных переменных Х1, Х2 и Х3:
-
Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, Xi); выбрать наиболее информативный фактор.
-
Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.
-
Проверить значимость коэффициентов модели с помощью t–критерия Стьюдента (принять уровень значимости α=0,05).
-
Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F – критерия Фишера (принять уровень значимости α=0,05).
-
С доверительной вероятностью γ=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 1). Представить графически фактические и модельные значения Y, результаты прогнозирования.
7 |
Y7 |
Потребление хлебных продуктов на душу населения (в год), кг |
Сибирский федеральный округ |
Х1 |
Х2 |
Х3 |
Y1 |
Y2 |
Y3 |
Y4 |
Y5 |
Y6 |
Y7 |
Y8 |
Y9 |
Y10 |
Республика Алтай |
13836,9 |
15632,4 |
106,4 |
7179,0 |
1,7 |
0,7 |
16,4 |
38,4 |
183,2 |
143 |
275 |
87 |
37 |
Республика Бурятия |
15715,5 |
19924,0 |
107,5 |
11340,0 |
1,2 |
2,1 |
23,2 |
14,9 |
191,7 |
117 |
262 |
65 |
30 |
Республика Тыва |
10962,8 |
19163,1 |
107,3 |
4944,6 |
1,7 |
0,1 |
21,1 |
42,8 |
135,4 |
135 |
178 |
40 |
25 |
Республика Хакасия |
14222,8 |
20689,5 |
107,6 |
9680,5 |
1,3 |
1,3 |
25,0 |
19,3 |
247,7 |
134 |
263 |
110 |
31 |
Алтайский край |
12499,9 |
13822,6 |
104,8 |
9765,7 |
2,3 |
1,4 |
20,8 |
10,3 |
229,6 |
168 |
334 |
102 |
40 |
Забайкальский край |
15968,8 |
21099,6 |
107,8 |
10572,7 |
1,8 |
0,4 |
23,3 |
22,0 |
218,2 |
116 |
246 |
88 |
33 |
Красноярский край |
20145,5 |
25658,6 |
106,1 |
14105,7 |
1,8 |
3,8 |
29,7 |
13,3 |
262,1 |
117 |
242 |
118 |
27 |
Иркутская область |
16017,2 |
22647,7 |
107,4 |
10580,2 |
1,3 |
1,9 |
22,5 |
19,0 |
224,3 |
113 |
198 |
82 |
34 |
Кемеровская область |
16666,0 |
20478,8 |
106,5 |
11237,2 |
1,7 |
2,4 |
26,3 |
18,9 |
210,1 |
130 |
228 |
77 |
34 |
Новосибирская область |
18244,1 |
20308,5 |
106,2 |
14898,1 |
2,1 |
2,4 |
21,7 |
5,1 |
260,2 |
125 |
289 |
127 |
35 |
Омская область |
17247,9 |
19087,8 |
105,0 |
12663,1 |
1,7 |
2,3 |
25,1 |
15,8 |
223,5 |
138 |
343 |
132 |
47 |
Томская область |
16516,0 |
24001,0 |
106,1 |
11199,4 |
1,5 |
3,3 |
24,5 |
16,0 |
231,3 |
120 |
263 |
95 |
34 |
Прогнозные значения |
16500,0 |
21000,0 |
106,0 |
|
|
|
|
|
|
|
|
|
|
Решение:
Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, Xi); выбрать наиболее информативный фактор.
Используем Excel (Данные / Анализ данных / КОРРЕЛЯЦИЯ):
Получим матрицу коэффициентов парной корреляции между всеми имеющимися переменными:
Проанализируем коэффициенты корреляции между результирующим признаком Y и каждым из факторов Xj:
r (Y,X1)=-0,58<0, следовательно, между переменными Y и Х1 наблюдается обратная корреляционная зависимость: потребление хлебных продуктов на душу населения (в год), ниже для среднедушевых денежных доходов (в месяц).
r (Y,X2)=-0,85<0, значит, между переменными Y и Х2 наблюдается обратная корреляционная зависимость: потребление хлебных продуктов на душу населения (в год), ниже чем среднемесячная номинальная начисленная заработная плата работников организаций.
r (Y,X3)=-0,61<0, значит, между переменными Y и Х3 наблюдается обратная корреляционная зависимость: потребление хлебных продуктов на душу населения (в год), ниже чем индекс потребительских цен (декабрь к декабрю предыдущего года).
Для проверки значимости найденных коэффициентов корреляции используем критерий Стьюдента.
Для
каждого коэффициента корреляции
вычислим t-статистику
по формуле
и занесем результаты расчетов в
дополнительный столбец корреляционной
таблицы:
По таблице
критических точек распределения
Стъюдента при уровне значимости
и числе степеней свободы k=n-2=12-2=10,
определим критическое значение tкр.=2,22
(функция СТЬЮДРАСПОБР).
Сопоставим фактические значения t с критическим tkp, и сделаем выводы в соответствии со схемой:
t
(r(Y,X1))=0,16<tкр.=2,22
, следовательно,
коэффициент
не является значимым.
t
(r(Y,X2))=0,25<tкр.=2,22,
следовательно, коэффициент
не является значимым.
t
(r(Y,X3))=0,37<tкр.=2,22,
следовательно, коэффициент
не является значимым.
Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.
Для построения
парной линейной модели
используем программу РЕГРЕССИЯ (Данные
/ Анализ данных). В качестве «входного
интервала Х»
покажем значения фактора Х1.
Результаты вычислений представлены в таблицах:
Коэффициенты модели содержатся в третьей таблице итогов РЕГРЕССИИ (столбец Коэффициенты).
Таким образом, модель парной регрессии построена, ее уравнение имеет вид
YT=186, 93*X1
Проверить значимость коэффициентов модели с помощью t–критерия Стьюдента (принять уровень значимости α=0,05).
Значимость коэффициентов модели проверим с помощью t – критерия Стьюдента.
t – статистики для коэффициентов уравнения регрессии приведены в столбце «t–статистика» третьей таблицы итогов РЕГРЕССИИ:
-
для свободного коэффициента a=186,93 определена статистика t(a)=7,3.
-
для коэффициента регрессии b=0 определена статистика t(b)=-2,2.
Критическое значение tкр=2,22 найдено для уровня значимости =5% и числа степеней свободы 10 (функция СТЬЮДРАСПОБР).
Схема проверки:
t (a)=7,3>tкр. свободный коэффициент а является значимым.
t(b)=2,29>tкр. коэффициент регрессии b является значимым.
Выводы о значимости коэффициентов модели сделаны на уровне значимости =5%. Рассматривая столбец «Р-значение», отметим, что свободный коэффициент а можно считать значимым на уровне 2,32Е-05; коэффициент регрессии b – на уровне 0,04.
Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F – критерия Фишера (принять уровень значимости α=0,05).
Для вычисления
средней
относительной ошибки аппроксимации
рассмотрим остатки модели
,
содержащиеся в столбце Остатки
итогов программы РЕГРЕССИЯ (таблица
«Вывод
остатка»).
Дополним таблицу столбцом относительных
погрешностей, которые вычислим по
формуле
с помощью функции ABS.
По столбцу относительных погрешностей найдем среднее значение Eотн=7,57 (функция СРЗНАЧ).
Оценим точность построенной модели в соответствии со схемой:
Eотн=7,57 – модель имеет удовлетворительную точность.
Коэффициент детерминации R-квадрат определен программой РЕГРЕССИЯ (таблица «Регрессионная статистика») и составляет R2=0,34. Таким образом, вариация (изменение) потребления хлебных продуктов Y на 34% объясняется по уравнению модели вариацией среднедушевых доходов.
Проверим значимость полученного уравнения с помощью F – критерия Фишера.
F – статистика определена программой РЕГРЕССИЯ (таблица «Дисперсионный анализ») и составляет F = 5,25.
Критическое значение Fкр= 4,96 найдено для уровня значимости =5% и чисел степеней свободы k1=1, k2=12 (функция FРАСПОБР).
Схема проверки:
Сравнение показывает: F = 5,25 > Fкр = 4,96; следовательно, уравнение модели является значимым, его использование целесообразно, зависимая переменная Y (потребление хлебных продуктов) достаточно хорошо описывается включенной в модель факторной переменной Х1 (среднедушевые доходы в месяц).
С доверительной вероятностью γ=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 1). Представить графически фактические и модельные значения Y, результаты прогнозирования.
Согласно условию задачи прогнозное значение факторной переменной Х1 составляет 16500,0. Рассчитаем по уравнению модели прогнозное значение показателя Y:
YT=186.93*16500=3084840
Таким образом, если среднедушевые доходы составят 16500, то потребление хлебных продуктов будет около 308 кг.
Зададим доверительную
вероятность
и построим доверительный
прогнозный интервал для среднего
значения Y.
Для этого нужно рассчитать стандартную ошибку прогнозирования для среднего значения результирующего признака
.
Предварительно подготовим:
-
стандартную ошибку модели SE=13,2 (таблица «Регрессионная статистика» итогов РЕГРЕССИИ);
по столбцу исходных данных Х1 найдем среднее значение равное 15670 (функция СРЗНАЧ) и определим ∑(xi-x)2= 68727399,34 (функция КВАДРОТКЛ);
-
(функция СТЬЮДРАСПОБР).
Для построения чертежа используем Мастер диаграмм (точечная) – покажем исходные данные (поле корреляции).