Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
моё Задание 1 №5.docx
Скачиваний:
3
Добавлен:
22.07.2019
Размер:
3.16 Mб
Скачать

Задание 1. По заданной таблице зависимости признаков X и Y, соответствующей номеру варианта, провести регрессионный анализ:

а) найти выборочные уравнения прямых линий регрессии на и на ; отобразить графически выборочные данные.

б) провести анализ остатков

Вариант 3.

Х

7.0

2.3

9.2

3.3

9.0

У

0.2

-2.7

1.7

-0.8

1.4

Предварительно построим диаграмму рассеяния, чтобы убедиться, что предположение линейности регрессионной зависимости не лишено смысла. Для этого в меню Graphs выберем команду Scatter plots. В полученном окне нажмем кнопку Variables., и установим зависимые данные – X: fonds, Y: product и опции графика – Graphs Type: Regular, Fit (подбор): Linear.

Наблюдаем диаграмму рассеяния с подобранной прямой регрессии, параметры которой отражены в ее заголовке. Это означает, что уравнение линейной регрессии имеет вид .

Рис. 1. Диаграмма рассеяния

Чтобы получить обратную зависимость, в окне задания опций следует поменять местами переменные X и Y, то есть переменной X назначить колонку products, а переменной Y fonds. В этом случае уравнение регрессии задается уравнением , а прямая имеет вид, представленный на рисунке.

Рис 2.

По полученным графикам делаем вывод, что имеет смысл проводить регрессионный анализ по имеющимся исходным данным.

Будем работать в модуле Multiple Regression (множественная регрессия); меню StatisticsMultiple Regression. В качестве зависимой переменной выберем колонку fonds, в качестве независимой – колонку products, во вкладке Advanced установим опцию Input file (входной файл): Raw Data (необработанные данные).

Нажав кнопку OK, получаем основные результаты анализа: имеем основные результаты: коэффициент детерминации R2: 0.921; гипотеза о нулевом значении наклона отклоняется с высоким уровнем значимости p = 0.0096.

F – значение критерия Фишера, F=35,05609. R? (R2) – множественный коэффициент детерминации, df – количество степеней свободы F-критерия, No. of cases – количество наблюдений, adjusted R? (R2) – скорректированный коэффициент детерминации, определяемый по формуле , p – критический уровень значимости модели, Standard error of estimate – среднеквадратическая ошибка, Intercept – оценка свободного члена модели регрессии,

Std. Error – стандартная ошибка оценки свободного члена модели регрессии,

t(3) = -5,433 и p=0,0122 – значения критерия и критического уровня значимости, используемые для проверки гипотезу о равенстве нулю свободного члена регрессии. В данном случае гипотеза должна быть принята, если уровень значимости равен 0,0122 или ниже.

На вкладке Quick нажмем кнопку Summary Regression Results и получим таблицу результатов (см. рис. 4):

Рис. 4. Таблица результатов регрессионного анализа

В заголовке полученной таблицы повторены результаты предыдущего окна; в столбцах приведены: В – значения оценок параметров модели регрессии и ; столбец St. Err. of B – параметры стандартных ошибок параметров модели регрессии, соответственно и ; столбец t(3) – значение статистики Стьюдента (t-критерия) для проверки гипотезы о нулевом значении коэффициента (т.е. и ); столбец p-level =0,009626. Итак, имеем регрессию:

.

Значение коэффициента детерминации R2 = RI = 0,921 достаточно велико (доля R = 0,9598 всей изменчивости объясняется вариацией фондов). Уравнение регрессии показывает, что увеличение основных фондов на 1 млн. денежных единиц приводит к увеличению выработки 1 работника в среднем на 1 = 1,3 тыс. денежных единиц.

Многочисленные дополнительные опции модуля регрессии позволяют, например, вычислить результаты описательной статистики (среднее значение и среднее квадратическое отклонение), а также коэффициент корреляции между данными. Для этого можно воспользоваться вкладкой Advanced, нажав на ней кнопку Descriptive Statistics и выбрав необходимые кнопки. Результат будет отображен в отдельном окне. Нажав на кнопку во вкладке Matrix, получим общее окно, приведенное на рис. 5.5.

Рис. 5. Описательная статистика и коэффициент корреляции

В окне Multiple Regression выберем вкладку Residuals/assumptions/prediction, позволяющую оценить остатки и нажмем на кнопку Perform Residual analysis. Далее кнопкой активизируем окно

Рис. 6. Наблюдаемые и предсказанные значения остатков

Первые четыре столбца этой таблицы определяют: номера наблюдений (названия областей), фактические (Observed Value) и расчетные значения (Predicted Value) количества продукции, отклонения фактических данных от расчетных (Residual). Четыре последних строки содержат минимальное, максимальное, среднее и медианное значения показателей. Равенство нулю среднего значения остатков свидетельствует о корректности расчетов.

Рисунок 7 – Доверительные интервалы для зависимой переменной

Задание 2. По заданной таблице значений результирующего признака и факториальным признакам построить методом наименьших квадратов 2 различные эмпирические формулы и сравнить качество полученных приближений. Провести анализ остатков.

Х

-2

-1,6

-1,2

-0,8

-0,4

0

0,4

0,8

1,2

1,6

У

16

10,24

5,76

2,56

0,53

0

0,64

2,56

5,76

10,24

Решим данную задачу с применением пакета STATISTICA.

Рисунок 8

Видим, что зависимость нелинейная, а имеет четко выраженную форму параболической кривой. Для наибольшей точности проверим близость данной зависимости к параболическому виду. Уравнение параболы . Выполним регрессионный анализ: Statistics-Multiple Regression-Variables; Dependent var:y, Independent var:x, x^2-Ok-Input File-Raw Data-OK. В окне Multiple Regression Results имеем основные результаты: коэффициент детерминации R2=0,963. Кнопка Regression summary- на экране таблица результатов.

Рисунок 9

Cтандартные ошибки оценки коэффициентов: 0,017, 0,0108 и 0,00996.

Значение коэффициента детерминации R2 = RI = 0,9999 достаточно велико (R = 0,9999). Следовательно, полученная эмпирическая функция достаточно точно описывает зависимость y от x:

Необходимости в проверки ещё одной гипотезы нет.

Задание 3. Исследуется зависимость урожайности y зерновых культур (ц/га) от ряда факторов (переменных) сельскохозяйственного производства, а именно:x1-число тракторов на 100 га; x2- число зерноуборочных комбайнов на 100 га; x3-число орудий поверхностной обработки почвы на 100 га; x4- количество удобрений, расходуемых на га (т/га); x5- количество химических средств защиты растений, расходуемых на га (ц/га). Здесь мы располагаем выборкой объема n=20; число независимых переменных к=5. Матрица Х должна содержать 6 столбцов размерности 20; первый столбец состоит из единиц. Анализ технологии сбора данных показал, что уравнения статистической связи между yi и Xi =(xi1, …xi5) можем записать в виде Y=XB+ε.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]