Задание 1. По заданной таблице зависимости признаков X и Y, соответствующей номеру варианта, провести регрессионный анализ:
а) найти выборочные уравнения прямых линий регрессии на и на ; отобразить графически выборочные данные.
б) провести анализ остатков
Вариант 3.
Х |
7.0 |
2.3 |
9.2 |
3.3 |
9.0 |
У |
0.2 |
-2.7 |
1.7 |
-0.8 |
1.4 |
Предварительно построим диаграмму рассеяния, чтобы убедиться, что предположение линейности регрессионной зависимости не лишено смысла. Для этого в меню Graphs выберем команду Scatter plots. В полученном окне нажмем кнопку Variables., и установим зависимые данные – X: fonds, Y: product и опции графика – Graphs Type: Regular, Fit (подбор): Linear.
Наблюдаем диаграмму рассеяния с подобранной прямой регрессии, параметры которой отражены в ее заголовке. Это означает, что уравнение линейной регрессии имеет вид .
Рис. 1. Диаграмма рассеяния
Чтобы получить обратную зависимость, в окне задания опций следует поменять местами переменные X и Y, то есть переменной X назначить колонку products, а переменной Y – fonds. В этом случае уравнение регрессии задается уравнением , а прямая имеет вид, представленный на рисунке.
Рис 2.
По полученным графикам делаем вывод, что имеет смысл проводить регрессионный анализ по имеющимся исходным данным.
Будем работать в модуле Multiple Regression (множественная регрессия); меню Statistics – Multiple Regression. В качестве зависимой переменной выберем колонку fonds, в качестве независимой – колонку products, во вкладке Advanced установим опцию Input file (входной файл): Raw Data (необработанные данные).
Нажав кнопку OK, получаем основные результаты анализа: имеем основные результаты: коэффициент детерминации R2: 0.921; гипотеза о нулевом значении наклона отклоняется с высоким уровнем значимости p = 0.0096.
F – значение критерия Фишера, F=35,05609. R? (R2) – множественный коэффициент детерминации, df – количество степеней свободы F-критерия, No. of cases – количество наблюдений, adjusted R? (R2) – скорректированный коэффициент детерминации, определяемый по формуле , p – критический уровень значимости модели, Standard error of estimate – среднеквадратическая ошибка, Intercept – оценка свободного члена модели регрессии,
Std. Error – стандартная ошибка оценки свободного члена модели регрессии,
t(3) = -5,433 и p=0,0122 – значения критерия и критического уровня значимости, используемые для проверки гипотезу о равенстве нулю свободного члена регрессии. В данном случае гипотеза должна быть принята, если уровень значимости равен 0,0122 или ниже.
На вкладке Quick нажмем кнопку Summary Regression Results и получим таблицу результатов (см. рис. 4):
Рис. 4. Таблица результатов регрессионного анализа
В заголовке полученной таблицы повторены результаты предыдущего окна; в столбцах приведены: В – значения оценок параметров модели регрессии и ; столбец St. Err. of B – параметры стандартных ошибок параметров модели регрессии, соответственно и ; столбец t(3) – значение статистики Стьюдента (t-критерия) для проверки гипотезы о нулевом значении коэффициента (т.е. и ); столбец p-level =0,009626. Итак, имеем регрессию:
.
Значение коэффициента детерминации R2 = RI = 0,921 достаточно велико (доля R = 0,9598 всей изменчивости объясняется вариацией фондов). Уравнение регрессии показывает, что увеличение основных фондов на 1 млн. денежных единиц приводит к увеличению выработки 1 работника в среднем на 1 = 1,3 тыс. денежных единиц.
Многочисленные дополнительные опции модуля регрессии позволяют, например, вычислить результаты описательной статистики (среднее значение и среднее квадратическое отклонение), а также коэффициент корреляции между данными. Для этого можно воспользоваться вкладкой Advanced, нажав на ней кнопку Descriptive Statistics и выбрав необходимые кнопки. Результат будет отображен в отдельном окне. Нажав на кнопку во вкладке Matrix, получим общее окно, приведенное на рис. 5.5.
Рис. 5. Описательная статистика и коэффициент корреляции
В окне Multiple Regression выберем вкладку Residuals/assumptions/prediction, позволяющую оценить остатки и нажмем на кнопку Perform Residual analysis. Далее кнопкой активизируем окно
Рис. 6. Наблюдаемые и предсказанные значения остатков
Первые четыре столбца этой таблицы определяют: номера наблюдений (названия областей), фактические (Observed Value) и расчетные значения (Predicted Value) количества продукции, отклонения фактических данных от расчетных (Residual). Четыре последних строки содержат минимальное, максимальное, среднее и медианное значения показателей. Равенство нулю среднего значения остатков свидетельствует о корректности расчетов.
Рисунок 7 – Доверительные интервалы для зависимой переменной
Задание 2. По заданной таблице значений результирующего признака и факториальным признакам построить методом наименьших квадратов 2 различные эмпирические формулы и сравнить качество полученных приближений. Провести анализ остатков.
Х |
-2 |
-1,6 |
-1,2 |
-0,8 |
-0,4 |
0 |
0,4 |
0,8 |
1,2 |
1,6 |
У |
16 |
10,24 |
5,76 |
2,56 |
0,53 |
0 |
0,64 |
2,56 |
5,76 |
10,24 |
Решим данную задачу с применением пакета STATISTICA.
Рисунок 8
Видим, что зависимость нелинейная, а имеет четко выраженную форму параболической кривой. Для наибольшей точности проверим близость данной зависимости к параболическому виду. Уравнение параболы . Выполним регрессионный анализ: Statistics-Multiple Regression-Variables; Dependent var:y, Independent var:x, x^2-Ok-Input File-Raw Data-OK. В окне Multiple Regression Results имеем основные результаты: коэффициент детерминации R2=0,963. Кнопка Regression summary- на экране таблица результатов.
Рисунок 9
Cтандартные ошибки оценки коэффициентов: 0,017, 0,0108 и 0,00996.
Значение коэффициента детерминации R2 = RI = 0,9999 достаточно велико (R = 0,9999). Следовательно, полученная эмпирическая функция достаточно точно описывает зависимость y от x:
Необходимости в проверки ещё одной гипотезы нет.
Задание 3. Исследуется зависимость урожайности y зерновых культур (ц/га) от ряда факторов (переменных) сельскохозяйственного производства, а именно:x1-число тракторов на 100 га; x2- число зерноуборочных комбайнов на 100 га; x3-число орудий поверхностной обработки почвы на 100 га; x4- количество удобрений, расходуемых на га (т/га); x5- количество химических средств защиты растений, расходуемых на га (ц/га). Здесь мы располагаем выборкой объема n=20; число независимых переменных к=5. Матрица Х должна содержать 6 столбцов размерности 20; первый столбец состоит из единиц. Анализ технологии сбора данных показал, что уравнения статистической связи между yi и Xi =(xi1, …xi5) можем записать в виде Y=XB+ε.