- •Содержание
- •Если события А, В, С совместны, то
- •Формула полной вероятности имеет вид
- •ТЕМА 3. ПОВТОРНЫЕ НЕЗАВИСИМЫЕ ИСПЫТАНИЯ
- •Пусть С – постоянная величина. Тогда
- •Для вычисления дисперсии используется формула
- •Дисперсия обладает свойствами
- •Если случайная величина распределена по закону Пуассона, то
- •Плотность нормального распределения имеет вид
- •Дисперсия нормального распределения
- •Правило трех сигм записывается в виде равенства
- •1. Ошибка указания времени часами со скачущей минутной стрелкой имеет равномерное распределение. Определить вероятность того, что при определении времени ошибка не будет превышать 20 секунд.
- •В предельной форме утверждения теоремы Бернулли имеют вид
- •На практике для вычисления дисперсии применяется формула
- •Легко установить, что
- •Вычислим размах товарооборота по формуле (9.14). Получим, что
- •ТЕМА 10. СТАТИСТИЧЕСКИЕ ОЦЕНКИ
- •ТЕМА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ
- •Непосредственно из этого определения следует, что
- •Найденные из систем (11.16) и (11.17) параметры подставляют, соответственно, в (11.14) и (11.15). В итоге получим искомое теоретическое уравнение регрессии Y на Х, предполагаемая кривая которого выравнивает эмпирическую кривую регрессии Y на Х.
- •Уравнение (11.11) очевидным образом преобразуется к виду
- •ТЕМА 12. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
94
ТЕМА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ
Понятие о системе случайных величин. Независимые и зависимые случайные величины. Числовые характеристики системы двух случайных величин: корреляционный момент (ковариация) и коэффициент корреляции. Коррелированность и некоррелированность двух случайных величин. Функциональная и статистическая (стохастическая) зависимости между случайными величинами (признаками). Корреляционная таблица. Групповые (условные) средние yx и xy . Корреляционная зависимость между двумя
признаками. Уравнения регрессии и линии регрессии. Основные задачи теории корреляции. Линейная и нелинейная корреляционная зависимости. Эмпирические (опытные) линии регрессии. Приближение эмпирических линий теоретическими кривыми регрессии по данным выборки с помощью метода наименьших квадратов. Нахождение параметров теоретических прямых линий регрессии. Коэффициенты регрессии. Выборочный коэффициент корреляции и его свойства. Запись уравнений прямых линий регрессии (теоретических) с помощью коэффициента корреляции. Упрощенный способ нахождения выборочного коэффициента корреляции и прямых линий регрессии в случае равноотстоящих вариант. Нелинейные корреляционные зависимости между двумя признаками. Корреляционные отношения и их свойства. Понятие о множественной корреляции. Уравнение линейной множественной регрессии. Совокупный коэффициент корреляции и его свойства. Частные коэффициенты корреляции и их свойства.
Л и т е р а т у р а
[1], раздел 2, гл.5, 5.5.3, 5.6.7, гл.6, 6.1.4, 6.1.5, 6.2; [4], §3; [5], гл.14, § 1-4, 7- 9, 11, 16-18, гл.12, § 10, 12, гл.18, § 1-15; [8], гл.9, § 1-7; [9], гл.6, § 1, 2, гл.9, § 1- 3; [11], гл.29, § 199, 200, 205, гл.33, § 220-225; [12], ч.2, гл.6, § 21-26; [16], гл.8.
О с н о в н ы е п о л о ж е н и я и ф о р м у л ы
Для характеристики связи между признаками Х и Y служит корреляционный момент (ковариация) Kxy, который (которая) определяется как математическое
ожидание произведения отклонений этих величин: |
|
Kxy = М[(X-M(X)) (Y-M(Y))]. |
(11.1) |
Непосредственно из этого определения следует, что |
|
Kxy = M(XY) – M(X) M(Y). |
(11.2) |
Легко доказать, что корреляционный момент двух независимых случайных
величин равен нулю. Таким образом, условие |
|
Kxy =0 |
(11.3) |
является необходимым условием независимости случайных величин. Следовательно, если Kxy 0, то X и Y – зависимые случайные величины.
95
Если Kxy=0, то величины Х и Y не обязательно независимы. Если Х и Y – зависимые случайные величины, то отсюда еще не следует, что Kxy 0.
Корреляционный момент зависит от выбора единиц измерения случайных величин Х и Y, поэтому использовать эту характеристику не всегда удобно. От этого недостатка свободна характеристика, называемая коэффициентом корреляции. Коэффициент корреляции определяется равенством
rxy = |
Kxy |
|
. |
(11.4) |
|
|
|||
|
x |
y |
|
Размерность Kxy равна произведению размерностей величин Х и Y. Тогда из равенства (11.4) следует, что коэффициент корреляции является безразмерной величиной. В этом его преимущество перед корреляционным моментом, в остальном он играет роль корреляционного момента.
Две случайные величины Х и Y называются коррелированными, если их корреляционный момент отличен от нуля (или, что следует из (11.4), rxy 0). Х и Y называются некоррелированными величинами, если Kxy=0 (rxy=0).
Из этих определений и сказанного ранее получаются следующие выводы: 1) из независимости двух случайных величин следует их некоррелированность, но из некоррелированности еще не следует независимость этих величин; 2)из коррелированности двух случайных величин следует их зависимость, но из зависимости еще не вытекает коррелированность.
Статистическая зависимость между двумя признаками Х и Y выборки характеризуется корреляционной таблицей, общий вид которой следующий:
Y |
y1 |
|
yj |
|
ys |
nx |
|
Х |
|
|
|
|
|
|
|
x1 |
n11 |
|
n1j |
|
n1s |
nx1 |
|
|
|
|
|
|
|
|
|
xi |
ni1 |
|
nij |
|
nis |
nxi |
(11.5) |
|
|
|
|
|
|
|
|
xk |
nk1 |
|
nkj |
|
nks |
nxk |
|
ny |
ny1 |
|
nyj |
|
nys |
n |
|
Здесь хi (i=1,…, k), yj = (j=1,…, s) – соответственно значения признаков Х и Y;
nxi, nyj – соответствующие им частоты; |
|
nij – частота, с которой встречается пара |
|||||||||
S |
|
|
|
|
k |
|
|
|
|
|
|
(хi, yj). По определению nxi = |
nij , |
nyj = |
nij . |
Из таблицы (11.5) вытекают |
|||||||
j |
1 |
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
k |
S |
K |
S |
||
следующие равенства для объема выборки n: |
n = |
nxi |
|
nyj |
nij . |
||||||
|
|
|
|
|
|
i 1 |
j 1 |
i 1 |
j 1 |
||
|
|
|
|
|
|
||||||
По опытным данным (11.5) находятся условные (групповые) |
средние y xi , |
||||||||||
|
|
|
|
||||||||
отвечающие значениям хi (i=1,…, k), и x yj , отвечающие значениям |
yj (j=1,…,S) |
||||||||||
по формулам |
|
|
|
|
|
|
|
|
|
|
|
96
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y j |
nij |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
y xi |
|
j |
1 |
|
|
, |
|
|
|
|
|
(11.6) |
||
|
|
|
|
|
|
|
|
|
|
|
nxi |
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
K |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xi nij |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x yj |
|
i 1 |
|
|
. |
|
|
|
|
|
|
(11.7) |
||||
|
|
|
|
|
|
|
|
|
|
nyj |
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ломаная |
|
линия, соединяющая |
|
точки |
|
M * (x , |
y |
xi |
) , |
называется опытной |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
i |
|
|
|
|
|
(эмпирической) линией регрессии Y на Х. Ломаная линия, соединяющая точки |
|||||||||||||||||||||||
|
|
|
|
|
|
||||||||||||||||||
M ** (xyj , y |
) , называется эмпирической линией регрессии Х на Y. |
||||||||||||||||||||||
j |
j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Пусть требуется найти теоретическое уравнение |
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
(11.8) |
||||||||||
|
|
|
|
|
Yx |
f (x, a1,..., an ) |
|
|
|
|
|
||||||||||||
регрессии Y на Х по данным |
|
корреляционной |
таблицы (11.5). Параметры |
||||||||||||||||||||
а1,…,аn |
этого уравнения находятся |
|
|
методом |
наименьших квадратов. При |
предполагаемом законе функциональной зависимости f коэффициенты а1,…,аn выбираются «наилучшими», т.е. так, чтобы сумма
K |
|
|
|
|
|
|
|
(11.9) |
||
nxi |
Y xi |
y xi |
|
|||||||
i 1 |
|
|
|
|
|
|
|
|
|
|
оказалась минимальной. Величина |
|
|
|
|
|
|
определяет расстояние от точек |
|||
|
Y xi |
yxi |
Мi(хi, Y xi ), лежащих на предполагаемой теоретической кривой (11.8), до угловых точек Мi*(xi, y xi ) эмпирической (опытной) кривой. Множителем nxi
учитывается значимость (вес) каждого хi. Минимум функции F(а1,…, аn), определенной равенством
K |
|
|
2 , |
|
F(а1,…, аn) = nxi f (xi , a1,..., an ) y xi |
(11.10) |
|||
i 1 |
|
|
будет и минимумом суммы (11.9). Теперь функцию (11.10) как функцию многих переменных а1,…, аn исследуют известными методами на экстремум. Если f дифференцируема по переменным а1,…,аn, то получится система алгебраических уравнений относительно неизвестных а1,…, аn, решение которой дает «наилучшие» параметры при выбранном законе зависимости f. В этом и состоит метод наименьших квадратов.
Если f(х, а1,…, аn)=а1х+а2, то теоретической кривой регрессии Y на Х будет
прямая линия |
|
Y x = а1х + а2. |
(11.11) |
В этом случае легко показать, что минимум функции (11.10) достигается при параметрах а1, а2, являющихся решением системы линейных алгебраических уравнений
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
а1 x2 + а2 x = xy , |
|
|||||||||
|
|
|
|
|
|
|||||||
|
|
а1 x + а2 = y , |
(11.12) |
|||||||||
где Z k - начальные моменты порядка k (см. (9.9)) |
и |