- •Содержание
- •Введение
- •§ 1. Математическая статистика. Выборочная совокупность. Точечные оценки параметров генеральной совокупности
- •§ 2. Интервальные оценки. Доверительная вероятность
- •§ 3. Проверка статистических гипотез. Проверка гипотез о значении математического ожидания
- •§ 4. Проверка статистических гипотез. Проверка гипотез о значении дисперсии
- •§ 5. Критерии согласия для корреляционных показателей. Критерии согласия относительно долей
- •Расчет коэффициента корреляции Пирсона производится по следующей формуле:
- •Пример 4.1
- •§ 6. Критерий согласия Пирсона . Критерий Вилкоксона однородности выборок
- •§ 7. Дисперсионный анализ. Однофакторный и двухфакторный дисперсионный анализ Однофакторный и двухфакторный дисперсионный анализ
- •7. 1. Однофакторный дисперсионный анализ
- •7. 2. Двухфакторный дисперсионный анализ
- •§ 8. Корреляционный и регрессионный анализ. Элементы теории корреляции
- •§ 9. Метод наименьших квадратов
- •§ 10. Множественная линейная регрессия
- •§ 11. Дискриминантный анализ
- •§ 12. Методы кластерного анализа
- •§ 13. Факторный анализ и анализ главных компонент
- •§ 13. Векторный анализ и теория поля. Основные понятия теории поля. Скалярное поле. Векторное поле. Оператор Гамильтона
- •§ 14. Функции комплексного переменного. Основные понятия. Аналитическая функция. Конформное отображение. Интегрирование функции комплексного переменного. Ряд Лорана
- •Литература
§ 9. Метод наименьших квадратов
Обработка результатов эксперимента. Аппроксимация экспериментальных данных. Параметры выборочного уравнения прямой и криволинейной регрессии по не сгруппированным и сгруппированным данным. Метод наименьших квадратов
Задачи для самостоятельного решения:
По
данной таблице определить методом
наименьших квадратов квадратичную
функцию
1)
хi |
102 |
112 |
122 |
132 |
142 |
152 |
162 |
yi |
4 |
6 |
10 |
40 |
20 |
12 |
8 |
2)
хi |
10,6 |
15,6 |
20,6 |
25,6 |
30,6 |
35,6 |
40,6 |
yi |
8 |
10 |
60 |
12 |
5 |
3 |
2 |
3)
хi |
226 |
232 |
238 |
244 |
250 |
256 |
262 |
yi |
5 |
15 |
40 |
25 |
8 |
4 |
3 |
4)
хi |
312,4 |
3316,4 |
320,4 |
324,4 |
328,4 |
332,4 |
336,4 |
yi |
5 |
15 |
40 |
25 |
8 |
4 |
3 |
5)
хi |
110 |
115 |
120 |
125 |
130 |
135 |
140 |
yi |
5 |
10 |
30 |
25 |
15 |
10 |
5 |
Занятие 8 |
Регрессионный и корреляционный анализ. Множественная линейная регрессия |
§ 10. Множественная линейная регрессия
Множественная линейная регрессия, остаточная дисперсия, коэффициент детерминации
Общее назначение множественной регрессии (этот термин был впервые использован в работе Пирсона - Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной.
В многомерном случае, когда имеется более одной независимой переменной, линия регрессии не может быть отображена в двумерном пространстве, однако она также может быть легко оценена. Например, если в дополнение к IQ вы имеете другие предикторы успеваемости (например, Мотивация, Самодисциплина), вы можете построить линейное уравнение, содержащее все эти переменные. Тогда, в общем случае, процедуры множественной регрессии будут оценивать параметры линейного уравнения вида:
Y = a + b1*X1 + b2*X2 + ... + bp*Xp
Коэффициенты могут быть найдены с помощью метода наименьших квадратов.
Остаточная дисперсия и коэффициент детерминации R-квадрат. Чем меньше разброс значений остатков около линии регрессии по отношению к общему разбросу значений, тем, очевидно, лучше прогноз. Например, если связь между переменными X и Y отсутствует, то отношение остаточной изменчивости переменной Y к исходной дисперсии равно 1.0. Если X и Y жестко связаны, то остаточная изменчивость отсутствует, и отношение дисперсий будет равно 0.0. В большинстве случаев отношение будет лежать где-то между этими экстремальными значениями, т.е. между 0.0 и 1.0. 1.0 минус это отношение называется R-квадратом или коэффициентом детерминации. Это значение непосредственно интерпретируется следующим образом. Если имеется R-квадрат равный 0.4, то изменчивость значений переменной Y около линии регрессии составляет 1-0.4 от исходной дисперсии; другими словами, 40% от исходной изменчивости могут быть объяснены, а 60% остаточной изменчивости остаются необъясненными. В идеале желательно иметь объяснение если не для всей, то хотя бы для большей части исходной изменчивости. Значение R-квадрата является индикатором степени подгонки модели к данным (значение R-квадрата близкое к 1.0 показывает, что модель объясняет почти всю изменчивость соответствующих переменных).
Интерпретация коэффициента множественной корреляции R. Обычно, степень зависимости двух или более предикторов (независимых переменных или переменных X) с зависимой переменной (Y) выражается с помощью коэффициента множественной корреляции R. По определению он равен корню квадратному из коэффициента детерминации. Это неотрицательная величина, принимающая значения между 0 и 1. Для интерпретации направления связи между переменными смотрят на знаки (плюс или минус) регрессионных коэффициентов или B-коэффициентов. Если B-коэффициент положителен, то связь этой переменной с зависимой переменной положительна (например, чем больше IQ, тем выше средний показатель успеваемости оценки); если B-коэффициент отрицателен, то и связь носит отрицательный характер (например, чем меньше число учащихся в классе, тем выше средние оценки по тестам). Конечно, если B-коэффициент равен 0, связь между переменными отсутствует.
Задачи для самостоятельного решения:
Занятие 9 |
Многомерный статистический анализ. Дискриминантный анализ |
