
Задание 1. По заданной таблице зависимости признаков X и Y, соответствующей номеру варианта, провести регрессионный анализ:
а)
найти выборочные уравнения прямых линий
регрессии
на
и
на
;
отобразить графически выборочные
данные.
б) провести анализ остатков
Вариант 3.
Х |
7.0 |
2.3 |
9.2 |
3.3 |
9.0 |
У |
0.2 |
-2.7 |
1.7 |
-0.8 |
1.4 |
Предварительно построим диаграмму рассеяния, чтобы убедиться, что предположение линейности регрессионной зависимости не лишено смысла. Для этого в меню Graphs выберем команду Scatter plots. В полученном окне нажмем кнопку Variables., и установим зависимые данные – X: fonds, Y: product и опции графика – Graphs Type: Regular, Fit (подбор): Linear.
Наблюдаем
диаграмму рассеяния с подобранной
прямой регрессии, параметры которой
отражены в ее заголовке. Это означает,
что уравнение линейной регрессии имеет
вид
.
Рис. 1. Диаграмма рассеяния
Чтобы
получить обратную зависимость, в окне
задания опций следует поменять местами
переменные X
и
Y,
то есть переменной X
назначить колонку products,
а переменной Y
–
fonds.
В этом случае уравнение регрессии
задается уравнением
,
а прямая имеет вид, представленный на
рисунке.
Рис 2.
По полученным графикам делаем вывод, что имеет смысл проводить регрессионный анализ по имеющимся исходным данным.
Будем работать в модуле Multiple Regression (множественная регрессия); меню Statistics – Multiple Regression. В качестве зависимой переменной выберем колонку fonds, в качестве независимой – колонку products, во вкладке Advanced установим опцию Input file (входной файл): Raw Data (необработанные данные).
Нажав кнопку OK, получаем основные результаты анализа: имеем основные результаты: коэффициент детерминации R2: 0.921; гипотеза о нулевом значении наклона отклоняется с высоким уровнем значимости p = 0.0096.
F
– значение критерия Фишера, F=35,05609.
R?
(R2)
– множественный коэффициент детерминации,
df
– количество степеней свободы F-критерия,
No.
of
cases
– количество наблюдений, adjusted
R?
(R2)
– скорректированный коэффициент
детерминации, определяемый по формуле
,
p
– критический уровень значимости
модели, Standard
error
of
estimate
– среднеквадратическая ошибка, Intercept
–
оценка свободного члена модели регрессии,
Std. Error – стандартная ошибка оценки свободного члена модели регрессии,
t(3) = -5,433 и p=0,0122 – значения критерия и критического уровня значимости, используемые для проверки гипотезу о равенстве нулю свободного члена регрессии. В данном случае гипотеза должна быть принята, если уровень значимости равен 0,0122 или ниже.
На вкладке Quick нажмем кнопку Summary Regression Results и получим таблицу результатов (см. рис. 4):
Рис. 4. Таблица результатов регрессионного анализа
В
заголовке полученной таблицы повторены
результаты предыдущего окна; в столбцах
приведены: В
– значения оценок параметров модели
регрессии
и
;
столбец St.
Err.
of
B
– параметры стандартных ошибок параметров
модели регрессии, соответственно
и
;
столбец t(3)
– значение статистики Стьюдента
(t-критерия)
для проверки гипотезы о нулевом значении
коэффициента (т.е.
и
); столбец p-level
=0,009626.
Итак, имеем регрессию:
.
Значение коэффициента детерминации R2 = RI = 0,921 достаточно велико (доля R = 0,9598 всей изменчивости объясняется вариацией фондов). Уравнение регрессии показывает, что увеличение основных фондов на 1 млн. денежных единиц приводит к увеличению выработки 1 работника в среднем на 1 = 1,3 тыс. денежных единиц.
Многочисленные дополнительные опции модуля регрессии позволяют, например, вычислить результаты описательной статистики (среднее значение и среднее квадратическое отклонение), а также коэффициент корреляции между данными. Для этого можно воспользоваться вкладкой Advanced, нажав на ней кнопку Descriptive Statistics и выбрав необходимые кнопки. Результат будет отображен в отдельном окне. Нажав на кнопку во вкладке Matrix, получим общее окно, приведенное на рис. 5.5.
Рис. 5. Описательная статистика и коэффициент корреляции
В
окне Multiple
Regression
выберем
вкладку
Residuals/assumptions/prediction,
позволяющую оценить остатки и нажмем
на кнопку Perform
Residual
analysis.
Далее кнопкой активизируем окно
Рис. 6. Наблюдаемые и предсказанные значения остатков
Первые четыре столбца этой таблицы определяют: номера наблюдений (названия областей), фактические (Observed Value) и расчетные значения (Predicted Value) количества продукции, отклонения фактических данных от расчетных (Residual). Четыре последних строки содержат минимальное, максимальное, среднее и медианное значения показателей. Равенство нулю среднего значения остатков свидетельствует о корректности расчетов.
Рисунок 7 – Доверительные интервалы для зависимой переменной
Задание
2.
По
заданной таблице значений результирующего
признака
и
факториальным признакам
построить методом наименьших квадратов
2 различные эмпирические формулы и
сравнить качество полученных приближений.
Провести анализ остатков.
Х |
-2 |
-1,6 |
-1,2 |
-0,8 |
-0,4 |
0 |
0,4 |
0,8 |
1,2 |
1,6 |
У |
16 |
10,24 |
5,76 |
2,56 |
0,53 |
0 |
0,64 |
2,56 |
5,76 |
10,24 |
Решим данную задачу с применением пакета STATISTICA.
Рисунок 8
Видим,
что зависимость нелинейная, а имеет
четко выраженную форму параболической
кривой. Для наибольшей точности проверим
близость данной зависимости к
параболическому виду. Уравнение
параболы
.
Выполним
регрессионный
анализ:
Statistics-Multiple Regression-Variables; Dependent var:y,
Independent var:x, x^2-Ok-Input File-Raw Data-OK. В
окне Multiple
Regression
Results
имеем основные результаты: коэффициент
детерминации R2=0,963.
Кнопка Regression
summary-
на экране таблица результатов.
Рисунок 9
Cтандартные ошибки оценки коэффициентов: 0,017, 0,0108 и 0,00996.
Значение коэффициента детерминации R2 = RI = 0,9999 достаточно велико (R = 0,9999). Следовательно, полученная эмпирическая функция достаточно точно описывает зависимость y от x:
Необходимости в проверки ещё одной гипотезы нет.
Задание 3. Исследуется зависимость урожайности y зерновых культур (ц/га) от ряда факторов (переменных) сельскохозяйственного производства, а именно:x1-число тракторов на 100 га; x2- число зерноуборочных комбайнов на 100 га; x3-число орудий поверхностной обработки почвы на 100 га; x4- количество удобрений, расходуемых на га (т/га); x5- количество химических средств защиты растений, расходуемых на га (ц/га). Здесь мы располагаем выборкой объема n=20; число независимых переменных к=5. Матрица Х должна содержать 6 столбцов размерности 20; первый столбец состоит из единиц. Анализ технологии сбора данных показал, что уравнения статистической связи между yi и Xi =(xi1, …xi5) можем записать в виде Y=XB+ε.