Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет технологий и управления им. К.Г. Разумовского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

II курс методички / методы обработки экспериментальных данных / методы обработки экспериментальных данных.doc

Скачиваний:

Добавлен:

20.04.2015

Размер:

3.97 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 76 7 > Следующая >>>

Тематический план лекций по курсу «Методы обработки экспериментальных данных» со студентами заочной сокращенной формы обучения специальности 230102 (2202)

№	Наименование разделов, тем	Кол-во часов
1	Графический способ обработки опытных данных.	0.25
2	Элементы дисперсионного анализа. Сравнение нескольких средних. Понятие о дисперсионном анализе. Общая факторная и остаточная суммы квадратов отклонений. Связь между общей, факторной и остаточной суммами. Общая, факторная и остаточная дисперсия. Сравнение нескольких средних методом дисперсионного анализа. Неодинаковое число испытаний на различных уровнях.	0.75
3	Элементы теории корреляции. Функциональная, статистическая и корреляционная зависимости. Парная корреляция. Коэффициент корреляции. Криволинейная корреляция. Множественная корреляция.	0.5
4	Метод наименьших квадратов.	0.25
5	Об ошибках измерений.	0.25
	Всего	2

Тематический план практических занятий по курсу «Методы обработки экспериментальных данных» со студентами заочной сокращенной формы обучения специальности 230102 (2202)

№	Наименование разделов, тем	Кол-во часов
1	Графический способ обработки опытных данных.	1
2	Элементы дисперсионного анализа. Сравнение нескольких средних. Понятие о дисперсионном анализе. Общая факторная и остаточная суммы квадратов отклонений. Связь между общей, факторной и остаточной суммами. Общая, факторная и остаточная дисперсия. Сравнение нескольких средних методом дисперсионного анализа. Неодинаковое число испытаний на различных уровнях.	3
3	Элементы теории корреляции. Функциональная, статистическая и корреляционная зависимости. Парная корреляция. Коэффициент корреляции. Криволинейная корреляция. Множественная корреляция.	3
4	Метод наименьших квадратов.	2
5	Об ошибках измерений.	1
	Всего	10

Учебно-методическое обеспечение дисциплины

Методические указания по выполнению курсовых работ, контрольных работ

Краткие теоретические сведения Элементы теории корреляции Функциональная, статистическая и корреляционная зависимости

Во многих задачах требуется установить или оценить зависимость случайной величины Y от одной или нескольких других величин. Рассмотрим сначала зависимость Y от одной случайной (или неслучайной величины) X. Две случайные величины могут быть связаны либо функциональной зависимостью, либо зависимостью другого рода, называемой статистической, либо быть независимыми. При функциональной зависимости каждому значению X соответствует вполне определенное значение Y. На практике такая зависимость встречается редко, так как Y помимо X часто зависит от ряда других факторов, подчас остающихся скрытыми. Кроме того, при определении значений X и Y практически всегда присутствуют ошибки измерения. Поэтому общим видом зависимости является статистическая зависимость, когда изменение значений X ведет к изменению распределения случайной величины Y. В частности, статистическая зависимость может проявиться в том, что при изменении X меняется среднее значение Y. В этом случае статистическую зависимость называют корреляционной. Пусть, например, X – количество вносимых удобрений, а Y – урожай зерна. Тогда с ростом X урожайность в среднем увеличивается, но значение Y не определяется однозначно значением X, так как помимо количества удобрений на урожайность влияет ряд других факторов, часто случайных: погодные условия, количество осадков и т.д.

Пусть – условное математическое ожидание случайной величины Y (среднее значение случайной величины Y при фиксированном значении величины X, равном x). Функция

называется регрессией Y на X, а ее график – линией регрессии Y на X.

В простейшем случае эта зависимость линейная:

;

где коэффициент называется коэффициентом регрессии Y на X. Ее графиком является прямая линия.

Заметим, что если X и Y – независимые случайные величины, то

и уравнение регрессии примет вид, где b = M(Y), т.е. это будет линейная регрессия с коэффициентом регрессии, равным нулю, и горизонтальной линией регрессии.

Получение по выборке уравнения регрессии является важным элементом корреляционного анализа. В зависимости от конкретной задачи это уравнение можно искать в классе линейных или в более широком классе уравнений. Оно будет, вообще говоря, зависеть от выборки, и поэтому называется выборочным уравнением регрессии. Но, если класс, в котором ищется уравнение, выбран правильно, то с ростом объема выборки выборочная линия регрессии, в силу закона больших чисел, будет приближаться к истинной линии регрессии.

Парная корреляция. Коэффициент корреляции

Пусть имеется выборка из совместного распределения величин (Y,X), в которой величина Y принимает значения , а величина X – значения

𝑛=,𝑖𝑗- -,𝑛-𝑖𝑗...

причем пара встречается раз. Объем выборки

Такую выборку удобно представить в виде корреляционной таблицы, строки которой соответствуют значениям величины Y, а столбцы – значениям X. В клетке, образованной i-ой строкой и j-ым столбцом, записано значение . Подробнее корреляционная таблица рассмотрена в последующем примере. Требуется получить по выборке уравнение прямой линии регрессии Y на X:

Оценивая по выборке значения , мы тем самым оцениваем условное математическое ожидание случайной величины Y для каждого значения x. Эта оценка имеет вид Как известно, наилучшей оценкой математического ожидания является величина, минимизирующая средний квадрат разности между нею и элементами выборки. Поэтому в качестве оценки величин берутся такие их значения, которые минимизируют сумму квадратов отклонений наблюдаемых значений от их прогнозируемых математических ожиданий:

(ради краткости будем временно вместо писать ).

Условие минимума F является обращение в нуль частных производных:

Это дает систему двух линейных уравнений относительно

Поделив обе части каждого из уравнений на объем выборки n, получаем:

Второе из этих уравнений показывает, что выборочная линия регрессии проходит через точку . Ее уравнение, следовательно, может быть записано в виде:

Вычтя из первого уравнения системы второе, умноженное на , найдем выборочный коэффициент регрессии Y на X:

Стоящая в знаменателе величина есть выборочная дисперсия величины X. Обозначим ее через , где – выборочное среднее квадратическое отклонение. Через обозначим выборочное среднее отклонение величины Y. Тогда

Введем величину

которая называется выборочным коэффициентом корреляции величин X и Y.

Выразив коэффициент регрессии через коэффициент корреляции, получим уравнение регрессии в виде:

На практике уравнение регрессии Y на X можно рассматривать как соотношение, позволяющее прогнозировать значение случайной величины Y по известному значению величины X, используя в качестве прогноза значение

Изучим свойства выборочного коэффициента корреляции подробнее. Коэффициент корреляции симметричен относительно X и Y. Уравнение регрессии X на Y может быть записано с его помощью как

Рассмотрим величину

Исходное выражение, являясь суммой квадратов, неотрицательно. Поэтому Отсюда следует, что или причем в том и только в том случае, когда все выборочные пары точек лежат на прямой регрессии. Этот случай соответствует строгой линейной функциональной зависимости величин X и Y, когда значение y однозначно определяется значением x. Как уже отмечалось, на практике он встречается редко.

Если, напротив, случайные величины X и Y независимы, то математическое ожидание выборочного коэффициента корреляции как случайной величины равно нулю, и его вычисленное по выборке значение также будет близким к нулю. Поэтому модуль выборочного коэффициента корреляции можно рассматривать как меру линейной функциональной зависимости величин X и Y. Близость модуля коэффициента корреляции к единице говорит о том, что между X и Y имеется сильная линейная связь и предсказание значения Y по X с помощью уравнения регрессии даст высокую точность.

Здесь следует отметить, что близость коэффициента корреляции к нулю не доказывает отсутствие функциональной связи между X и Y, а говорит лишь об отсутствии линейной функциональной зависимости. В качестве примера рассмотрим случай, когда случайная величина X распределена симметрично относительно нуля, а величина Y связана с X соотношением . В этом случае коэффициент корреляции величин X и Y равен нулю, несмотря на наличие между ними жесткой функциональной связи.

На практике, когда по выборке получено некоторое отличное от нуля значение выборочного коэффициента корреляции, может возникнуть вопрос, значимо ли это различие или, другими словами, имеется ли между ними X и Y линейная корреляционная связь. Можно сказать, что если величины X и Y нормальны и независимы, то величина

имеет распределение Стьюдента с степенями свободы. Для проверки значимости коэффициента корреляции при заданном уровне значимости по таблице критических точек распределения Стьюдента находят . Если значение величины T, вычисленное по выборке, , то коэффициент корреляции значим и величины X и Y зависимы.

Пример. Среди владельцев иномарок было выбрано 100 человек. Из стоимости автомашин в тыс. у.е.(X) и годового дохода владельцев также в тыс. у.е.(Y) составлена корреляционная таблица:

Y	X
Y	5	10	15	20	25
10	10	5	-	-	-	15
20	5	10	5	-	-	20
30	5	5	10	5	-	25
40	-	5	5	10	-	20
50	-	5	5	5	5	20
	20	30	25	20	5

Найти коэффициент корреляции величин X и Y и уравнение прямой линии регрессии Y на X.

Решение. Используя корреляционную таблицу, найдем , ,

Проверяя значимость коэффициента корреляции по указанной выше схеме, получим:

В предположении нормальности и независимости величин X и Y, критическое значение этой величины при уровне значимости найденное по таблице с равно т.е. имеет место , что свидетельствует о существовании линейной зависимости между X и Y.

Уравнение прямой линии регрессии Y на X запишется в виде:

или

Линия регрессии представлена на графике. Черными кружками отмечены выборочные значения. Размер кружков соответствует их частотам.

Криволинейная корреляция

Если линейная аппроксимация статистической зависимости между двумя величинами не отражает характер зависимости, используют модель криволинейной корреляции. Одной из распространенных является параболическая корреляция второго порядка, при которой уравнение регрессии Y на X имеет вид:

На практике выборка совместного распределения случайных величин X и Y возникает как последовательность пар перечисленных в порядке произведенных наблюдений, среди них могут быть и одинаковые. Для нахождения коэффициентов регрессии не обязательно группировать данные в корреляционную таблицу.

Как и в случае линейной корреляции, коэффициенты регрессии найдем из условия минимума функционала:

Условием минимума является обращение в нуль частных производных:

Это дает систему трех линейных уравнений относительно трех неизвестных которая называется системой нормальных уравнений:

Решая ее, получаем уравнение регрессии.

Отметим, что если ввести матрицу А и векторы у и а:

то в матричном виде систему нормальных уравнений можно записать как

А'Аа = А'у,

где А' – матрица, получаемая из матрицы А транспонированием.

Такая запись системы нормальных уравнений облегчает ее запоминание. Она переносится и на рассматриваемую далее множественную корреляцию.

Пример. Желая установить цену на товар, обеспечивающую максимальную прибыль, магазин в течении 5 рабочих дней недели продавал получаемые от поставщика изделия с наценкой 1, 2, 3, 4 и 5 у.е. При этом в каждый из дней было продано соответственно 100, 80, 60, 30 и 10 единиц товара. С помощью модели параболической регрессии второго порядка выбрать надбавку, дающую максимальную прибыль.

Решение. Выпишем таблицу соответствия между наценкой и полученной прибылью, определяемой как произведение наценки на количество проданного товара.

наценка Х	1	2	3	4	5
прибыль Y	100	160	180	120	50

Заметим, что устанавливаемая оценка по смыслу является величиной неслучайной. Прибыль, определяемая количеством проданного товара, напротив, величина случайная, среднее значение которой зависит от наценки. Уравнение регрессии Y на X ищем в виде:

Из полученной таблицы находим коэффициенты системы нормальных уравнений:

Система нормальных уравнений запишется в виде:

Произведя сокращение на 5, получим систему:

которую будем решать методом Гаусса.

Выборочное уравнение регрессии примет вид:

Даваемая моделью оптимальная наценка равна

а получаемая при такой наценке средняя ежедневная прибыль

Вычисленная по модели максимальная средняя ежедневная прибыль оказалась несколько меньше прибыли, полученной в день, когда наценка была равна 3. Это не должно вызывать недоумения. Согласно модели этот день был скорее случайной удачей, чем правилом.

На графике представлены значения полученных прибылей при различных наценках и полученная по ним параболическая линия регрессии.

Множественная корреляция

Пусть случайная величина Y зависит от величин Такую корреляцию называют множественной. Уравнение линейной множественной регрессии ищется в виде:

Используемая выборка состоит из n наборов соответствующих значений величины Y, где Коэффициенты находятся по выборке методом наименьших квадратов.

Как и в случае линейной парной регрессии средние значения должны удовлетворять этом уравнению:

Это позволяет, исключив коэффициент , записать уравнение регрессии в виде:

Такая запись уравнения весьма удобна и позволяет понизить на единицу порядок системы нормальных уравнений.

Пример. В течение 7 месяцев фирма давала рекламу своего товара по телевидению и в печати. Ежемесячные расходы на рекламу (, а также доход фирмы от продажи товара (Y) в тыс. у.е. сведены в таблице:

		Y
100	100	500
140	100	550
100	140	570
120	120	570
140	100	560
100	140	580
140	140	590

Получить по таблице уравнение регрессии

на основании которого предложить эффективную рекламную политику.

Решение. Уравнение регрессии будем искать в виде

Из таблицы находим: Переопределенная система линейных уравнений, даваемая выборкой, примет вид:

После сокращения и удаления уравнения, не содержащего неизвестных, получаем:

Соответствующая нормальная система запишется в виде:

Ее решение: Полученные значения коэффициентов регрессии свидетельствуют о том, что реклама по телевидению убыточна , а реклама в печати, наоборот, приносит некоторый доход . Поэтому относительно среднего уровня вложения в рекламу по телевидению следует снизить, направив освободившиеся средства на рекламу в печати.

Метод наименьших квадратов

Пусть величина Y является линейной комбинацией величин

неизвестные коэффициенты которой нужно найти. Для этого величинам придается n наборов значений и измеряются соответствующие значения Y. Это дает для определения следующую систему линейных уравнений:

где обозначает значение величины в

Минимальное число необходимых для этого уравнений n равно l. Если определитель системы отличен от нуля, что обычно и имеет место на практике, то система имеет при единственное решение. Если же число уравнений n больше числа неизвестных l, то так как любые n из уравнений системы являются независимыми, а остальные – их следствиями, теоретически можно выбрать любую подсистему из l уравнений и решить ее. На практике, однако, каждое измерение величины Y неизбежно связано с погрешностью. Это приводит к тому, что система при оказывается несовместной. Если же из нее выбрать подсистему из l уравнений, то полученные значения коэффициентов будут зависеть от этого выбора.

Для разрешения данной ситуации еще в начале XIX века немецким математиком Гауссом и французским математиком Лежандром был предложен прием, получивший название метода наименьших квадратов, который стал одним из основных способов обработки экспериментальных данных. Фактически, этот прием уже использовался нами при определении коэффициентов линейной и параболической парной корреляции. Теперь этот важный метод будет рассмотрен в общем виде.

Уравнения системы пытаются удовлетворить приближенно. В качестве меры близости берется сумма квадратичных уклонений левых частей от свободных членов. Решением по методу наименьших квадратов называется набор, доставляющий минимум функционала

Отметим, что если система допускает точное решение, то минимальное значение F оказывается равным нулю, и решение по методу наименьших квадратов является точным решением. Практически же для более точного нахождения неизвестных коэффициентов систему стараются переопределить как можно сильнее, увеличивая число уравнений n. Если ошибку в измерении величины Y считать, как обычно делается в теории ошибок, нормально распределенной случайной величиной с нулевым математическим ожиданием, то такой метод может быть обоснован теоретически как доставляющий значения, наиболее близкие к их действительным значениям.

Условия минимума F является равенство нулю частных производных:

что дает для определения систему l линейных уравнений с l неизвестными, которая называется системой нормальных уравнений.

Если ввести матрицу A исходной системы уравнений, вектор-столбец свободных членов y и вектор-столбец неизвестных a:

то в матричном виде систему нормальных уравнений можно записать как

где матрица, получаемая из матрицы A транспонированием.

Матрица нормальной системы является квадратной симметрической матрицей. Ее элементы равны скалярному произведению i-го и j-го столбцов матрицы A.

Задания для контрольной работы

Задача 1

Найдите методом наименьших квадратов значения коэффициентов линейной зависимости по эмпирическим данным:

Вариант 1.

	0,5	0,1	2,0	2,5	3,0
	0,62	1,64	3,7	5,02	6,04

Вариант 2.

	-1	0	1	2	3	4
	0	2	3	3,5	3	4,5

Вариант 3.

	0	2	3	8	9	12
	-1	1	5	7	10	13

Вариант 4.

	0,4	0,6	0,8	1	1,2	1,4
	2	3	4	5	6	7

Вариант 5.

	-3	-1	0	4	5	8	10	11
	-8	-5	-3	0	1	4	5	8

Вариант 6.

	-3	5	2	6	8	10
	-1	1	2	4	9	11

Вариант 7.

	-2,5	1,5	3	7	8	12
	-1,5	1,5	5	7	9,5	13

Вариант 8.

	0	3	3	8,5	9	11,5
	-1	1	6	7	11,5	13

Вариант 9.

	0,5	2,5	3,1	8	9	12
	-1	1	5,2	7	10,5	13

Вариант 10.

	0	2,3	3	8	9,1	12
	-1,5	1	5,4	7	10	11

Задача 2

По данным, представленным в таблице, построить прогнозирующую функцию, используя метод наименьших квадратов.