- •Содержание
- •Введение
- •РазделI. Статистические методы обработки данных
- •Глава 1. Вариационные ряды и их характеристики
- •1.1. Первичная обработка результатов наблюдений
- •1.2. Графическое представление статистических данных
- •1.3. Расчет выборочных характеристик статистического распределения
- •1.4. Интервальные (доверительные) оценки параметров распределения
- •Контрольные вопросы
- •Глава 2. Проверка статистических гипотез
- •2.1. Построение кривой нормального распределения
- •2.2. Классический метод проверки гипотез
- •2.3. Проверка гипотез о законе распределения
- •Критерий Пирсона
- •Критерий Колмогорова
- •Контрольные вопросы
- •Глава 3. Парная регрессия и корреляция
- •3.1. Понятие функциональной, статистической и корреляционной зависимости
- •3.2. Линейная модель парной регрессии и корреляции
- •3.3. Нелинейные модели парной регрессии и корреляции
- •Контрольные вопросы
- •Глава 4. Множественная регрессия и корреляция
- •4.1.Спецификация модели. Отбор факторов при построении уравнения множественной регрессии
- •4.2. Метод наименьших квадратов (мнк). Свойства оценок на основе мнк
- •4.3. Проверка существенности факторов и показатели качества регрессии
- •Контрольные вопросы
- •Раздел II. Лабораторный практикум
- •Выполнение работы
- •Лабораторная работа № 2. Построение модели линейной регрессии (случай несгруппированных данных)
- •Выполнение работы
- •Лабораторная работа № 3. Построение уравнения модели линейной регрессии (случай сгруппированных данных)
- •Выполнение работы
- •Лабораторная работа № 4. Изучение модели нелинейной регрессии
- •Выполнение работы
- •Лабораторная работа № 5. Построение модели множественной регрессии
- •Выполнение работы
- •Лабораторная работа № 6. Прогнозирование. Анализ аддитивной модели
- •Выполнение работы
- •Варианты индивидуальных заданий Варианты заданий к лабораторной работе № 1.
- •Варианты заданий к лабораторной работе № 2.
- •Варианты заданий по лабораторной работе № 3
- •Варианты заданий по лабораторной работе № 4
- •Варианты заданий к лабораторной работе № 5.
- •Варианты заданий к лабораторной работе № 6.
- •Тестовые задания
- •Список литературы
- •Приложения
- •Статистические методы обработки данных
- •Библиотечно-издательский комплекс
- •625000, Тюмень, ул. Володарского, 38. Типография библиотечно-издательского комплекса.
- •625039, Тюмень, ул. Киевская, 52.
Контрольные вопросы
Рассказать о возможных вариантах построения кривой нормального распределения.
Дать определение статистической гипотезы.
Что называется статистическим критерием?
Сформулировать алгоритм применения любого статистического критерия для обработки данных.
Сформулировать правило применения критерия согласия Пирсона для проверки гипотезы согласованности эмпирического распределения с теоретическим нормальным.
Сформулировать алгоритм применения критерия Колмогорова для проверки соответствия эмпирического распределения нормальному теоретическому распределению.
Рассказать о приближенных критериях, применяемых для проверки гипотезы о нормальном распределении выборочной совокупности.
Глава 3. Парная регрессия и корреляция
3.1. Понятие функциональной, статистической и корреляционной зависимости
В статистическом анализе две случайные величины могут быть либо связаны функциональной, статистической или корреляционной зависимостью, либо быть независимыми.
Функциональной
называют зависимость величины
от
в
том случае, когда каждому значению
величины
соответствует одно единственное значение
.
Зависимость называют статистической, в случае, когда изменение одной величины влечет соответственно изменение распределения другой.
В том случае, кода изменение одной из переменных величин сопровождается изменениями условного среднего значения другой переменной, зависимость называется корреляционной.
При
этом среднее арифметическое значений
,
соответствующих значению
называют условным средним
.
Если каждому значению
соответствует одно значение условной
средней, то условная средняя есть функция
от
.
В данном случае случайная величина
зависит от
корреляционно.
Корреляционной
зависимостью
от
называют функцию
.
Уравнение
называют уравнением регрессии
на
,
а его график - линией регрессии
на
.
Аналогичным
образом определяют условную среднюю
и корреляционную зависимость
от
.
В данном случае условным средним
называют среднее арифметическое значений
,
соответствующих
.
Корреляционной зависимостью
от
называется функция
.
Уравнение
называется уравнением регрессии
на
,
а его график, соответственно, линией
регрессии
на
.
В теории корреляции корреляционный анализ решает две задачи:
1 задача: установление формы корреляционной связи, т. е. определение вид функции регрессии (линейная, квадратичная и так далее).
2 задача: оценка тесноты (силы) корреляционной зависимости. Теснота корреляционной зависимости на оценивается по величине рассеивания значений вокруг условного среднего. Большое рассеивание указывает на наличие слабой зависимости, малое рассеивание - сильной зависимости.
3.2. Линейная модель парной регрессии и корреляции
Ввиду четкой экономической интерпретации параметров линейной регрессии, она нашла широкое применение при статистических методах обработки данных.
Построение линейной регрессии сводится к нахождению уравнения вида:
или
.
Уравнение
вида
позволяет по заданным значениям фактора
определять теоретические значения
результативного признака
,
при подставлении в него фактических
значений фактора
.
Построение
линейной регрессии сводится к оценке
двух параметров
и
.
Классическим
подходом к оценке параметров линейной
регрессии является метод наименьших
квадратов (МНК), позволяющий получать
такие оценки параметров
и
,
при которых сумма квадратов отклонений
фактических значений результативного
признака
от теоретических
становится минимальной
.
Чтобы
определить минимум функции, необходимо
вначале вычислить частные производные
по каждому из параметров
и
,
а затем приравнять их к нулю. Если
обозначить
через
,
тогда получают:
.
После проведения несложных преобразований, получают нормальную систему линейных уравнений для оценки параметров и :
(1.59)
При решении системы уравнений (1.59) определяют искомые оценки параметров и . Из решения системы (1.59) непосредственно получают следующие формулы:
,
(1.60)
где
,
,
,
.
Параметр - коэффициент регрессии, величина которого показывает среднее изменение признака-результата с изменением признака-фактора на одну единицу.
Параметр
- это значение
при
.
Если факторный признак
не может иметь нулевого значения, то
параметр
не может иметь экономического содержания.
Нахождение
уравнения регрессии всегда дополняют
расчетом показателя тесноты связи. При
использовании линейной регрессии в
качестве такого показателя используют
линейный коэффициент корреляции
,
который рассчитывается на основании
следующей формулы:
,
(1.61)
где
,
Значение
линейного коэффициента корреляции
может находиться в пределах:
.
Чем ближе абсолютное значение линейного
коэффициента корреляции
к единице, тем сильнее линейная связь
между двумя факторами (при
имеется строгая функциональная
зависимость). Однако, следует учитывать,
что близость абсолютной величины
линейного коэффициента корреляции к
нулю может не означать отсутствие связи
между двумя признаками - при нелинейной
спецификации модели связь между
признаками может оказаться достаточно
тесной.
Оценку тесноты линейной корреляционной связи принято определять, пользуясь данными табл. 1.11.
Таблица 1.11
Теснота связи |
Величина |
|
Прямая связь |
Обратная связь |
|
Линейной связи нет |
|
|
Слабая |
|
|
Средняя |
|
|
Сильная |
|
|
Функциональная |
|
|
Для
оценки качества подбора линейной функции
рассчитывают коэффициент детерминации,
представляющий собой квадрат линейного
коэффициента корреляции
.
Коэффициент детерминации характеризует долю дисперсии признака-результата , объясняемую регрессией, в общей дисперсии результативного признака. Определяется на основании формулы:
,
(1.62)
где
,
.
Величина
дает характеристику доли дисперсии
,
вызванной влиянием остальных, не учтенных
в модели, факторов.
После того как найдено уравнение линейной регрессии, проводят оценку значимости уравнения и отдельных его параметров.
Проверка значимости уравнения регрессии означает установление соответствия математической модели, выражающей зависимость между переменными, экспериментальным данным и достаточность включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Качество модели из относительных отклонений по каждому наблюдению определяют на основании средней ошибки аппроксимации, которая находится по формуле:
.
(1.63)
Средняя ошибка аппроксимации не должна превышать 8,0 - 10,0%.
Оценка
значимости уравнения регрессии в целом
проводится на основании
-критерия
Фишера.
Согласно
принципам дисперсионного анализа, общая
сумма квадратов отклонений переменной
от среднего значения
раскладывается на две части – «объясненную»
и «необъясненную»:
,
(1.64)
где
– общая сумма квадратов отклонений;
– сумма квадратов
отклонений, объясненная регрессией
(или факторная сумма квадратов отклонений);
– остаточная сумма
квадратов отклонений, характеризующая
влияние неучтенных в модели факторов.
Схема проведения дисперсионного анализа представлена в табл. 1.12.
Таблица 1.12
Компоненты дисперсии |
Сумма квадратов |
Число степеней свободы |
Дисперсия на одну степень свободы |
Общая |
|
|
|
Факторная |
|
|
|
Остаточная |
|
|
|
Примечание:
– число наблюдений,
– число параметров при переменной
.
Величину - критерия Фишера получают, сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы:
.
(1.65)
Расчетное
значение
-критерия
Фишера (1.65) сравнивают с табличным
при уровне значимости
и степенях свободы
и
(приложение 7). При этом, если фактическое
значение
-критерия
больше табличного, то признается
статистическая значимость уравнения
в целом.
Для
парной линейной регрессии
,
поэтому:
.
(1.66)
Величина - критерия связана с коэффициентом детерминации , и ее можно рассчитать по следующей формуле:
.
(1.67)
В парной линейной регрессии оценивается значимость также отдельных параметров уравнения.
Для оценки статистической значимости коэффициентов регрессии и корреляции определяют t-критерий Стьюдента и доверительные интервалы каждого из показателей. Оценку значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводят путем сопоставления их значений с величиной случайной ошибки:
(1.68)
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяют на основании формул:
(1.69)
Для
проверки существенности коэффициента
регрессии и для расчета его доверительного
интервала совместно с
-распределением
Стьюдента при
степенях свободы применяют величину
стандартной ошибки.
Для
оценки существенности коэффициента
регрессии определяют фактическое
значение
-критерия
Стьюдента, которое затем сравнивают с
табличным значением при определенном
уровне значимости
и числе степеней свободы
.
Если tтаблtфак, то a, b и rxy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x. Если tтаблtфак, то признается случайная природа формирования a, b или rxy.
Между -критерием Стьюдента и -критерием Фишера существует связь, определяемая:
.
(1.70)
Для
расчета доверительного интервала
определяется предельная
ошибка
для каждого из показателей:
Для расчета доверительных интервалов используют формулы:
(1.71)
В случае, если нижняя граница доверительного интервала отрицательна, а верхняя положительна, то оцениваемый параметр принимают равным нулю, так как он не может одновременно принимать и положительные, и отрицательные значения.
