
- •Конспект лекций По курсу «описательная статистика» для студентов 2 курса специальностей:
- •Введение
- •Основные понятия описательной статистики.
- •Основные этапы статистической обработки данных. Формы организации и виды статистического наблюдения.
- •Способы отбора выборки. Точность статистического наблюдения.
- •Раздел I. Одномерные статистические признаки
- •Табличное представление экспериментальных данных.
- •Тема. Графическое изображение статистических данных
- •Средние величины. Степенные средние.
- •Структурные (порядковые) характеристики.
- •Показатели вариации
- •Правило сложения дисперсий
- •Моменты распределения. Характеристики формы распределения
- •Раздел II. Статистическое изучение взаимосвязи между признаками
- •Измерение взаимной зависимости
- •Оба признака заданы в количественной шкале
- •Оба признака заданы в порядковой шкале
- •Оба признака заданы в номинальной шкале.
- •Регрессионная зависимость двух признаков
- •Множественная регрессия
- •Раздел III. Статистическое изучение динамики
- •Характеристики описания временных рядов.
- •Тренды во временных рядах.
Регрессионная зависимость двух признаков
После установления достаточной степени тесноты связи выполняется построение модели связи (уравнение регрессии).
Чаще всего используются следующие типы функций: линейная, гиперболическая, параболическая, показательная.
Для определения численных значений параметров уравнения связи используется метод наименьших квадратов (МНК).
Модель простой двумерной регрессии может быть записана в следующей форме:
или
=
f(x,
а) + х
,
где ух – значение признака Y при fix значении признака Х;
у*х = f(x, а) – теоретическое значение признака Y при фиксированном значении признака Х; а – неизвестный вектор параметров модели;
х – погрешность (ошибка) наблюдений; является ненаблюдаемой величиной.
Относительно х предполагают выполнение следующих требований:
.
< + .
= 0, i j.
х ~ N(0,
) .
Определим некоторое параметрическое семейство функций
f(x, а) = f(x, a0,…, ap).
Коэффициенты a0, …, ap находятся из условия минимизации суммы:
.
Линейная регрессия.
Y
= aX
+ b.
Пусть имеется входной признак Х
и результативный признак Y.
Рассмотрим последовательность наблюдений
(xi,
yj)
c
абсолютной частотой mij,
.
.
Тогда
,
.
Дисперсия отклонения
определяется
по формуле:
.
Прогноз по модели
тренда в точке
вычисляется
по формуле:
.
Нелинейная регрессия. Для определения адекватности модели (или меры нелинейной связи между переменными) используется коэффициент детерминации:
,
–
объясненная
дисперсия (вариация, обусловлена
уравнением регрессии).
,
– корреляционное
отношение.
В случае линейной
зависимости:
.
В остальных случаях всегда
.
Причем отклонение от линейности считается
существенным, если
.
Коэффициент детерминации показывает долю дисперсии исходного ряда, которая описывается моделью регрессии.
В ряде случаев можно перейти от нелинейной зависимости к линейной. Такой переход называется процессом линеаризации.
Множественная регрессия
Предположим, что имеется несколько факторных признаков Х1, Х2, …, Хk, k > 1, и один результативный признак Y. Модель множественной регрессии будет иметь вид:
,
х =(х1, х2,…, хk) – вектор значений факторных признаков;
у*х = f(х1, х2,…, хk, a), где функция f(x, a) выбирается из задаваемого параметрического семейства функций.
Для нахождения параметров функции f(x, a) используется МНК.
Относительно х предполагается выполнение условий, сформулированных для случая простой двумерной регрессии.
Введем обозначения:
–
матрица наблюдений.
,
,
.
Тогда регрессионную модель представим в матричном виде Y = XA + .
Для нахождения ai будем использовать метод наименьших квадратов:
.
ХТХА = ХТY, det ХТХ 0,
А = (ХТХ)-1ХТY.
,
i
j;
;
.
Добавим равенство
.
Запишем данную систему для случая, когда имеется два факторных признака, т.е. k = 2.
Откуда
,
.
Обозначим
.
Величины i
называют стандартизированными
коэффициентами множественной регрессии.
Получим
Матрицу, составленную из коэффициентов
называют корреляционной (или матрицей парных коэффициентов корреляции).
Для проверки
адекватности модели применяют
множественный
коэффициент детерминации
,
где ry
– множественный
коэффициент корреляции,
,
,
–
сумма квадратов отклонений теоретических
и средних значений;
=
.
Слагаемые в правой части последнего равенства называют коэффициентами раздельной детерминации.
Заметим, что
определитель
= 0.
Обозначим
k
=
,
k+1
=
Тогда
0 =
=
+
= k+1
+ r2y
k.
Следовательно,
r2y = – k+1 /k.
Величину
называют системным
эффектом.
Частные коэффициенты детерминации:
,
,
где
– коэффициент
детерминации для уравнения регрессии
со всеми факторными признаками, кроме
xm.
Для определения корреляционной зависимости между признаками, которые заданы в порядковой шкале, используется множественный коэффициент ранговой корреляции, иначе коэффициент конкордации:
,
где k – число признаков х1,…,хk, n – число наблюдений;
,
–
ранги соответствующих
значений.
Наблюдение
записывается в виде вектора (
).