
- •Предисловие
- •Введение
- •1 Первичная обработка статистических данных.
- •1.1 Проверка данных
- •1.2 Группировка статистических данных
- •1.3 Графическое представление статистических данных
- •1.4 Задача 1. Первичная обработка
- •2 Точечные оценки параметров распределения.
- •2.1 Несгруппированные статистические данные
- •2.2 Статистические дискретный и интервальный ряды
- •2.3 Метод “условного нуля”
- •2.2.4 Задача 1. Точечные оценки
- •Выборочное среднее квадратическое отклонение равно
- •Выборочное среднее квадратическое отклонение равно
- •3 Интервальные оценки параметров распределения
- •3.1 Доверительные интервалы для некоторых параметров распределения
- •3.2 Примеры построения доверительных интервалов
- •4 Проверка статистических гипотез
- •4.1 Сравнение двух дисперсий нормально распределенных генеральных совокупностей
- •4.2 Сравнение двух математических ожиданий нормально распределенных генеральных совокупностей, дисперсии которых неизвестны и одинаковы
- •4.3 Сравнение двух вероятностей биномиальных распределений
- •4.4 Проверка гипотезы о виде распределения генеральной совокупности по критерию Пирсона
- •4.5 Проверка гипотезы о виде распределения генеральной совокупности по критерию Колмогорова-Смирнова
- •4.6 Примеры
- •Выборочное среднее квадратическое отклонение равно
- •5 Элементы корреляционного и регрессионного анализа
- •5.1 Корреляционное поле
- •5.2 Эмпирическая ломаная регрессии
- •5.3 Эмпирический коэффициент детерминации и эмпирическое корреляционное отношение
- •5.4 Линейная регрессия
- •5.5 Проверка коэффициента корреляции на значимость.
- •5.6 Теоретический коэффициент детерминации и теоретическое корреляционное отношение
- •5.7 Нелинейная корреляция
- •5.8 Множественная регрессия
- •5.9 Оценка погрешности модели
- •5.10 Задача 1. Установления корреляционной зависимости
- •Реализация статистических расчетов при помощи компьютера
- •6.1 Табличный процессор Microsoft Excel
- •6.2 Пакет программ statistica
- •Задачи для самостоятельного решения
- •Вариант № 1
- •Вариант № 2
- •Вариант № 3
- •Вариант № 4
- •Вариант № 5
- •Вариант № 6
- •Вариант № 7
- •Вариант № 8
- •Вариант № 9
- •Вариант № 10
- •Вариант № 11
- •Вариант № 12
- •Вариант № 13
- •Вариант № 14
- •Вариант № 15
- •Вариант № 16
- •Вариант № 17
- •Вариант № 18
- •Вариант № 19
- •Вариант № 20
- •Вариант № 21
- •Вариант № 22
- •Вариант № 23
- •Вариант № 24
- •Вариант № 25
- •Вариант № 26
- •Вариант № 27
- •Вариант № 28
- •Вариант № 29
- •Вариант № 30
- •8. Контрольные задания по статистике для студентов дневной формы обучения
- •Основные вопросы теории математической статистики
- •Типы отборов и виды выборок.
- •8.2 Варианты контрольных работ Вариант № 1
- •Вариант № 2
- •Вариант № 3
- •Вариант № 4
- •Вариант № 5
- •Вариант № 6
- •Вариант № 7
- •Вариант № 8
- •Вариант № 9
- •Вариант № 10
- •Семестровые задания по статистике
- •9.1 Условие семестрового задания для студентов дневной формы обучения
- •9.2 Условие контрольной работы по статистике для студентов заочной формы обучения
- •9.3 Варианты заданий вариант 1
- •Вариант 2
- •Вариант 3
- •Пример выполнения контрольной работы по статистике для студентов заочной формы обучения
- •Выборочное среднее квадратическое отклонение равно
- •Выборочное среднее квадратическое отклонение равно
- •Приложения !!!! в отдельном файле “ Приложения” Рекомендуемая литература
5 Элементы корреляционного и регрессионного анализа
Зависимость между переменными случайными величинами Х и У, при которой каждому значению одной из них соответствует определенное среднее значение другой величины, называется корреляционной. Функция, описывающая такую зависимость, называется регрессией. По виду функции различают линейную и нелинейную регрессии, по количеству зависимых переменных – одномерную и множественную регрессии. Признак Х, соответствующий независимой переменной, будем называть факторным, признак У, соответствующий зависимой переменной, будем называть результативным.
5.1 Корреляционное поле
Пусть статистические данные представляют собой ряд пар связанных значений числовых признаков Х и У:
(х1 ;y1), (х2 ;y2), ..., (хi ;yi), …, (хn ;yn) .
К
орреляционное
поле – это графическое представление
статистических данных в прямоугольной
системе координат ХОУ, где каждой паре
на плоскости соответствует точка.
Построенное корреляционное поле
позволяет на начальном этапе исследования
сделать предварительный вывод как о
наличии зависимости между признаками
Х и У, так о виде этой зависимости.
5.2 Эмпирическая ломаная регрессии
Эмпирическая
ломаная регрессии строится по точка
,
где хj
– середины интервалов разбиения признака
Х;
–
средние групповые значения признака У
в каждом интервале признака Х:
=
(Σ yi)/nj
. Здесь суммирование ведется только по
тем значениям yi
, для которых значение хi
попало в j-тый интервал; nj
– берется из интервального статистического
ряда признака Х для j-го
интервала.
5.3 Эмпирический коэффициент детерминации и эмпирическое корреляционное отношение
Для измерения тесноты связи между признаками Х и У применяются эмпирический коэффициент детерминации и эмпирическое корреляционное отношение.
Эмпирический коэффициент детерминации находится по формуле:
, где Dмежгр
– межгрупповая дисперсия результативного
признака У; Dобщ
– общая дисперсия результативного
признака У ( можно использовать выборочную
дисперсию признака У, найденную при
одномерном анализе).
Можно также дисперсии определять по формулам:
(1)
(2)
где k – число групп по факторному признаку Х;
n – объем выборки;
yi – индивидуальные значения результативного признака У;
– его средние групповые значения;
– среднее значение
признака У;
nj – частота в j – той группе (берется из статистического рядя признака Х).
Эмпирическое корреляционное отношение равно корню квадратному из коэффициента детерминации
5.4 Линейная регрессия
а) Уравнение линейной регрессии с угловым коэффициентом
Уравнение линейной регрессии У на Х имеет вид:
,
(3)
где k – коэффициент регрессии, b – свободный член уравнения регрессии. Параметры уравнения регрессии определяются по фактическим данным, которые представляют собой набор n пар
(хi ;yi), при помощи метода наименьших квадратов (МНК).
Расчетные формулы имеют вид:
,
.
(4)
Если учесть формулы средних и дисперсии признаков Х и У, то расчет можно вести по следующим формулам:
, (5)
где
Замечание 1. Для
проверки правильности расчетов можно
использовать тождество:
Замечание 2. В формулах (5) можно использовать выборочные средние и дисперсии, найденные ранее на этапе одномерного анализа признаков, хотя с учетом группировки может получиться менее точный результат (хотя и более быстрый).
Расчет сумм, представленных в формулах, удобно производить при помощи табличного процессора Excel, который является электронной версией таблиц. Для расчета в Excel необходимо организовать расчетную таблицу. Ее вид в компьютере будет следующий (для примера взята выборка объемом n = 5):
б) Выборочное линейное уравнение регрессии
Выборочное линейное уравнение регрессии У на Х имеет вид:
(6)
Выборочное линейное уравнение регрессии Х на У имеет вид:
(7)
В этих уравнениях используются следующие формулы:
дисперсия
признака Х;
дисперсия
признака У;
rв – выборочный коэффициент корреляции, вычисляемый по формуле:
. (6)
Если параметры
уравнения были рассчитаны по уравнению
регрессии с угловым коэффициентом, то
выборочный коэффициент корреляции
вычисляется по формуле:
(7)