Добавил:

Tushkan Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «МЭИ»

Предмет:

Теория вероятностей и математическая статистика

Файл:

Лабораторная работа 8

.docx

Скачиваний:

Добавлен:

28.06.2014

Размер:

478.52 Кб

Скачать

☆

МОСКОВСКИЙ ЭНЕРГЕТИЧЕСКИЙ ИНСТИТУТ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

Лабораторная работа №6

«Линейный регрессионный анализ»

по дисциплине «Теория вероятности

и математическая статистика».

Выполнил: .

Студент группы А-13-08

Ганишев Василий

Проверил: .

Тигетов Д.Г.

Задание 1.

В таблице приведены данные по 45 предприятиям легкой промышленности по статистической связи между стоимостью основных фондов(founds, млн руб.) и средней выработкой на 1 работника(product, тыс. руб.); z – вспомогательный признак: z = 1 – федеральное подчинение, z = 2 – муниципальное.

Таблица 1

fonds	product	z	fonds	product	z	fonds	product	z
6,5	18,3	1	9,3	17,2	2	10,4	21,4	2
10,3	31,1	1	5,7	19,0	2	10,2	23,5	2
7,7	27,0	1	12,9	24,8	2	18,0	31,1	2
15,8	37,9	1	5,1	21,5	2	13,8	43,2	2
7,4	20,3	1	3,8	14,5	2	6,0	19,5	2
14,3	32,4	1	17,1	33,7	2	11,9	42,1	2
15,4	31,2	1	8,2	19,3	2	9,4	18,1	2
21,1	39,7	1	8,1	23,9	2	13,7	31,6	2
22,1	46,6	1	11,7	28,0	2	12,0	21,3	2
12,0	33,1	1	13,0	30,9	2	11,6	26,5	2
9,5	26,9	1	15,3	27,2	2	9,1	31,6	2
8,1	24,0	1	13,5	29,9	2	6,6	12,6	2
8,4	24,2	1	10,5	34,9	2	7,6	28,4	2
15,3	33,7	1	7,3	24,4	2	9,9	22,4	2
4,3	18,5	1	13,8	37,4	2	14,7	27,7	2

Построим диаграмму рассеивания, чтобы убедиться, что предположение линейности регрессионной зависимости не лишено смысла:

Выполним регрессионный анализ:

Так как значения уровня значимости p-level очень малы, гипотезы о нулевых значениях коэффициентов отклоняются с высокой значимостью.

Построим регрессию выработки по фондам для более однородной совокупности – для предприятий федерального подчинения.

Диаграмма рассеивания:

Регрессионный анализ:

Коэффициент детерминации увеличился с 0.597 до 0.897, значения Std. Errors of estimate уменьшилось с 5.01 до 2.68, значит подгонка улучшилась.

Задание 2.

Исследуется зависимость урожайности у зерновых культур (ц/га) от ряда факторов (переменных) сельскохозяйственного производства, а именно,

Х₁ – число тракторов на 100га

Х₂ – число зерноуборочных комбайнов

Х₃ – число орудий поверхностной обработки почвы

Х₄ – количество удобрений, расходуемых на гектар

Х₅ – количество химических средств защиты растений на гектар

Исходные данные для 20 районов области приведены в таблице. Здесь мы располагаем выборкой объема 20; число независимых переменных (факторов) k = 5. Матрица X должна содержать 6 столбцов размерности 20; первый столбец состоит из единиц, а столбцы со 2-го по 6-ой представлены соответственно столбцами 3-7 таблицы.

Предварительно визуально оценим имеющиеся данные, построив несколько диаграмм рассеяния:

Иногда такой просмотр позволяет увидеть основную зависимость, но не в этом примере.

Регрессионный анализ:

Таким образом, оценка (x) неизвестной функции регрессии f (x) в данном случае:

(x) = 3.51  0.06 x₁ + 15.5 x₂ + 0.11 x₃ + 4.47 x₄  2.93 x₅

В столбце St. Err. of B указаны стандартные ошибки s_j оценок коэффициентов (по (21)); видно, что стандартные ошибки в оценке всех коэффициентов, кроме ₄ , превышают значения самих коэффициентов, что говорит о статистической ненадежности последних. В столбце t(14) -значение статистики Стьюдента для проверки гипотезы о нулевом значении соответствующих коэффициентов; в столбце p-level -уровень значимости отклонения этой гипотезы; достаточно малым (0.01) этот уровень является только для коэффициента при x₄ . Только переменная x₄- количество удобрений, подтвердила свое право на включение в модель. В то же время проверка гипотезы об отсутствии какой бы то ни было линейной связи между y и (х₁ , ..., х₅) с помощью статистики:

F = 3.00 , p = 0.048 ,

говорит о том, что следует продолжить изучение линейной связи между y и (х₁ , ..., х₅), анализируя как их содержательный смысл, так и матрицу парных корреляций.

Из матрицы видно, что х₁ , х₂ и х₃ (оснащенность техникой) сильно коррелированы (парные коэффициенты корреляции 0.854, 0.882 и 0.978), т.е. имеет место дублирование информации, и потому, по-видимому, есть возможность перехода от исходного числа признаков (переменных) к меньшему.

Пошаговый отбор переменных.

На первом шаге (k = 1) найдем один наиболее информативную переменную. При k = 1 величина R² совпадает с квадратом обычного (парного) коэффициента корреляции

R²= r² (y, x) ,

из матрицы корреляций находим:

r² (y, x_j) = r² (y, x₄) = (0.577)² = 0.333,

так что в классе однофакторных регрессионных моделей наиболее информативным предиктором (предсказателем) является x₄- количество удобрений. Вычисление скорректированного (adjusted) коэффициента детерминации дает значение 0,296:

2-й шаг (k = 2). Среди всевозможных пар (х₄ , х_j ), j = 1, 2, 3, 5, выбирается наиболее информативная (в смысле R² или, что то же самое, в смысле R²_adj) пара:

вернемся в окно Select dep. And indep. Var. и переберем все различные пары; результат:

(х₄ , х₁) = 0.406, (х₄ , х₂) = 0.399,

(х₄ , х₃) = 0.421, (х₄ , х₅) = 0.255,

откуда видно, что наиболее информативной парой является (х₄ , х₃), которая дает

(2) = (х₄ , х_j) = 0.421

Оценка уравнения регрессии урожайности по факторам х₃ и х₄ имеет вид (х₃ , х₄) = 7.29 + 0.28 х₃ + 3.47 х₄

(0.66) (0.13) (1.07)

Внизу в скобках указаны стандартные ошибки, взятые из столбца Std. Err. of B таблицы Regression Results для варианта независимых переменных (х₃ , х₄) Все три коэффициента статистически значимо отличаются от нуля при уровне значимости  = 0.05, что видно из столбца p-level той же таблицы.

3-й шаг (k = 3). Среди всевозможных троек (х₄ , х₃,х_j), j = 1, 2, 5, выбираем аналогично наиболее информативную: (х₄ , х₃,х₅), которая дает (3) = 0.404,

что меньше, чем (2) = 0.421; это означает, что третью переменную в модель включать нецелесообразно, т.к. она не повышает значение (более того, уменьшает). Итак, результатом анализа является построенная на прошлом этапе зависимость.

Задание 3.

Имеются эмпирические данные о зависимости y - выработки на одного работника доменного производства от x - температуры дутья; данные приведены в таблице в условных единицах.

Построим диаграмму рассеяния:

Зависимость возможно нелинейная, построим несколько регрессий:

1) Регрессия первой степени: y = _о + ₁ x (indep. Var.: x); получим (в скобках указаны стандартные ошибки оценок):

y = 5.37 + 1.40 x

(0.98) (0.16)

= 0.795, s = 2.10.

2) Регрессия второй степени: y = _о + ₁ x + ₂ x²(indep. Var.: x, x2); получим:

y = 9.9 - 0.9 x + 0.21 x²,

(1.33) (0.57) (0.05)

= 0.891, s = 1.53,

коэффициент ₁ = -0.9 незначимо отличается от 0. Эта регрессия лучше предыдущей в смысле и s. Однако, возможно, регрессия третьей степени окажется лучше?

3) Построим регрессию третьей степени: y = _о + ₁ x + ₂ x² + ₃ x³

(indep. Var.: x, x2 , x3 ); получим:

y = 11.6 - 2.32 х + 0.52 х² - 0.02 х³

(2.33) (1.75) (0.36) (0.02)

= 0.890, s = 1.53,

незначимо отличаются от 0. Поскольку степень увеличилась без увеличения, от регрессии третьей степени отказываемся в пользу (31) второй степени. Однако, гипотеза о нулевом значении ₁ в (31) не отклоняется (p-level = 0.1), и потому построим

4) регрессию y = _о+ ₂ x² без линейного члена (indep. Var.: x2 ); получим

y = 8.02 + 0.13 x²

(0.54) (0.01)

= 0.884, s = 1.6,

Сравнивая ее по и s с регрессией, включающей линейный член, отдаем предпочтение второй, поскольку ошибка прогноза s меньше.

Задание 4.

Имеются 20 наблюдений по некоторому технологическому процессу химического производства ; х и у – изменяемое содержание двух веществ; z – контролируемый параметр получаемого продукта. Полагая, что z = P(x,y) + ε, где P(x,y) = β₀ + β₁x + β₂y + β₃x² + β₄xy + β₅y² – многочлен второй степени, ε – случайная составляющая, Mε = 0, Dε = σ², необходимо оценить функцию P(x,y) и найти точку её минимума.

Построим регрессию для z₈. Рассмотрим полученные результаты:

P(x,y) = 204,06 – 7,45x + 7,56y – 3,33x² – 8,12xy – 3,47y²

(11,43) (2,60) (2,48) (1,53) (1,57) (1,31)

Построим графики полученной функции и найдём точку её минимума:

По полученным графикам можно сказать, что точкой минимума функции является точка (-4;-4), но в этой точке нет наблюдений величины z8. Среди точек попадающих в диапазон измерений точкой минимума является точка (3,2).

Соседние файлы в папке Ганишев (8 вариант)

#
28.06.20141.23 Mб14Лабораторная работа 1.docx
#
28.06.2014134.04 Кб15Лабораторная работа 3.docx
#
28.06.2014232.93 Кб21Лабораторная работа 4.docx
#
28.06.2014564.67 Кб21Лабораторная работа 5.docx
#
28.06.2014136.21 Кб25Лабораторная работа 6.docx
#
28.06.2014478.52 Кб30Лабораторная работа 8.docx