
- •1. Выборка. Основные характеристики.
- •1. 1. Способы первичной обработки выборки
- •1. 2. Полигон частот. Выборочная функция распределения и гистограмма
- •1.3. Статистические оценки параметров
- •1. Доверительный интервал для оценки математического ожидания
- •2. Доверительный интервал для оценки математического ожидания
- •3. Доверительные интервалы для оценки среднего квадратического
- •2. Элементы теории корреляции
- •2.1. Линейная корреляция
- •2.2. Определение параметров функциональной зависимости
- •3. Статистическая проверка гипотез
- •3.1. Основные понятия.
- •3.2. Критерий для проверки гипотезы
- •3.3. Сравнение двух вероятностей
- •3.4. Критерий для проверки гипотезы о математическом ожидании.
- •3.5. Сравнение двух средних генеральных совокупностей
- •3.6. Критерий для проверки гипотезы о сравнении двух дисперсий.
- •3.7. Приближенный метод проверки нормальности распределения,
- •3.8. Критерий Пирсона для проверки гипотезы о виде закона распределения
- •Критерий Пирсона.
- •3.9. Проверка гипотезы о значимости выборочного
- •3.10. Проверка гипотезы о равенстве нулю генерального
- •4. Применение в математической статистике
2. Элементы теории корреляции
Расчеты коэффициентов корреляции, регрессии достаточно трудоемки. Это объясняется тем, что приходится обрабатывать большое количество исходных данных; ведь одно наблюдение дает сразу две величины. Однако нужно иметь в виду, что если объем выборки невелик, то расчеты этих коэффициентов несложны. При малых выборках общую корреляционную таблицу не составляют, а результат наблюдений оставляют в том виде, каким он получается непосредственно в опыте, т. е. в виде так называемой простой корреляционной таблицы. В такой таблице каждому номеру наблюдений соответствует пара наблюдавшихся значений случайных величин. Конечно, вычисленный по малому числу наблюдений коэффициент в целом имеет меньшую надежность. В тех случаях, когда известен общий вид зависимости между средней одной величины и значениями другой, параметры этой зависимости могут быть найдены методом наименьших квадратов.
2.1. Линейная корреляция
Рассмотрим выборку
двумерной случайной величины (Х,
Y)
. Примем в качестве оценок условных
математических ожиданий компонент их
условные средние значения, а именно:
условным
средним
назовем
среднее арифметическое наблюдавшихся
значений Y,
соответствующих Х
= х. Аналогично
условное
среднее
- среднее
арифметическое наблюдавшихся значений
Х,
соответствующих Y
= y.
Введем уравнения регрессии Y
на Х и
Х
на Y:
M (Y / x) = f (x), M ( X / y ) = φ (y).
Условные средние и являются оценками условных математических ожиданий и, следовательно, тоже функциями от х и у, то есть
= f*(x) - (1)
- выборочное уравнение регрессии Y на Х,
= φ*(у) - (2)
- выборочное уравнение регрессии Х на Y.
Соответственно функции f*(x) и φ*(у) называются выборочной регрессией Y на Х и Х на Y , а их графики – выборочными линиями регрессии. Выясним, как определять параметры выборочных уравнений регрессии, если этих уравнений известен.
Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из п пар чисел (х1, у1), (х2, у2),…, (хп, уп). Будем искать параметры прямой линии среднеквадратической регрессии Y на Х вида
Y = ρyxx + b , (3)
Подбирая параметры ρух и b так, чтобы точки на плоскости с координатами (х1, у1), (х2, у2), …, (хп, уп) лежали как можно ближе к прямой (3). Используем для этого метод наименьших квадратов и найдем минимум функции
.
(4)
Приравняем нулю соответствующие частные производные:
.
В результате получим систему двух линейных уравнений относительно ρ и b:
.
(5)
Ее решение позволяет найти искомые параметры в виде:
. (6)
При этом предполагалось, что все значения Х и Y наблюдались по одному разу.
Теперь рассмотрим случай, когда имеется достаточно большая выборка (не менее 50 значений), и данные сгруппированы в виде корреляционной таблицы:
Y |
X |
||||
x1 |
x2 |
… |
xk |
ny |
|
y1 y2 … ym |
n11 n12 … n1m |
n21 n22 … n2m |
… … … … |
nk1 nk2 … nkm |
n11+n21+…+nk1 n12+n22+…+nk2 …………….. n1m+n2m+…+nkm |
nx |
n11+n12+…+n1m |
n21+n22+…+n2m |
… |
nk1+nk2+…+nkm |
n=∑nx = ∑ny |
Здесь nij
– число появлений в выборке пары чисел
(xi,
yj).
Поскольку
,
заменим в системе (5)
, где пху
– число появлений пары чисел (х,
у). Тогда
система (5) примет вид:
.
(7)
Можно решить эту систему и найти параметры ρух и b, определяющие выборочное уравнение прямой линии регрессии:
.
Но чаще уравнение регрессии записывают в ином виде, вводя выборочный коэффициент корреляции. Выразим b из второго уравнения системы (7):
.
Подставим это
выражение в уравнение регрессии:
.
Из (7)
,
(8)
где
Введем понятие выборочного
коэффициента корреляции
и умножим равенство
(8) на
:
,
откуда
.
Используя это соотношение, получим
выборочное уравнение прямой линии
регрессии Y
на Х
вида
.
(9)
Коэффициент корреляции – безразмерная величина, которая служит для оценки степени линейной зависимости между Х и Y: эта связь тем сильнее, чем ближе |r| к единице.
Для качественной оценки тесноты корреляционной связи между X и Y можно воспользоваться таблицей Чеддока (табл.1):
Таблица 1
Диапазон изменения | rB | |
0,1-0,3 |
0,3-0,5 |
0,5-0,7 |
0,7-0,9 |
0,9-0,99 |
Характер тесноты связи |
слабая |
умеренная |
заметная |
высокая |
весьма высокая |
Итак,
если для
выборки двумерной случайной величины
(X,
Y):
{(xi,
yi),
i
= 1, 2,..., n}
вычислены выборочные средние
и
и выборочные средние квадратические
отклонения σх
и σу,
то по этим данным можно вычислить
выборочный
коэффициент корреляции
и получить линейные уравнения, описывающие связь между Х и Y, которые называются выборочным уравнением прямой линии регрессии Y на Х:
и выборочным уравнением прямой линии регрессии Х на Y :
.
Пример. Для выборки двумерной случайной величины
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
xi |
1,2 |
1,5 |
1,8 |
2,1 |
2, 3 |
3,0 |
3,6 |
4,2 |
5,7 |
6,3 |
yi |
5,6 |
6,8 |
7,8 |
9,4 |
10,3 |
11,4 |
12,9 |
14,8 |
15,2 |
18,5 |
вычислить выборочные средние, выборочные средние квадратические отклонения, выборочный коэффициент корреляции и составить выборочное уравнение прямой линии регрессии Y на Х.
Для определения
выборочного коэффициента корреляции
вычислим предварительно
Тогда
Выборочное уравнение
прямой линии регрессии Y
на Х имеет
вид:
или
◄
Пример.
По заданной корреляционной таблице
найти выборочные средние
среднеквадратические отклонения Χ,
Υ,
коэффициент корреляции ρΧΥ
и уравнение линейной регрессии Y
на X.
Вычислить условные средние
по дан-ным таблицы и найти наибольшее
их отклонение от значений, вычисляемых
из уравнения регрессии.
Y X |
0 |
2 |
4 |
6 |
8 |
nX |
1 |
3 |
|
|
|
|
3 |
3 |
2 |
3 |
5 |
|
|
10 |
5 |
|
9 |
8 |
|
|
17 |
7 |
|
|
2 |
6 |
|
8 |
9 |
|
|
|
4 |
1 |
5 |
11 |
|
|
|
|
7 |
7 |
nY
|
5 |
12 |
15 |
10 |
8 |
50 |
Вычислим выборочные средние и среднеквадратические отклонения для X,Y
Выборочный коэффициент корреляции между Х и У отыскивается по формуле
Согласно таблице
откуда
Выборочное линейное уравнение регрессии У на Х имеет вид
или, с учётом вычисленных значений,
Условное среднее при x = xi вычисляется по формуле
где
-
число выборочных значений yj
, наблюдавшихся
при данном xi
. Согласно
данным из таблицы находим
Значения условных средних , отыскиваемые по уравнению регрессии:
Отклонения значений ,
будут d1 = 0-0.45=-0.45; d2 = 2.6- 1.96 = 0.65; d3 = -0.51, d4 = 0.55; d5 = -0.05;
d6 = 0.05. Наибольшее по абсолютной величине отклонение равно 0.65. ◄
Пример. Выборочно обследовано 100 снабженческо-сбытовых предприятий некоторого региона по количеству работников X и объёмам складской реализации Y (д.е.). Результаты представлены в корреляционной таблице;
X У |
5 |
15 |
25 |
35 |
45 |
ny |
130 |
7 |
1 |
|
|
|
8 |
132 |
2 |
7 |
1 |
|
|
10 |
134 |
1 |
5 |
4 |
1 |
|
11 |
136 |
|
1 |
15 |
10 |
8 |
34 |
138 |
|
|
3 |
12 |
15 |
30 |
140 |
|
|
|
1 |
6 |
7 |
nх |
10 |
14 |
23 |
24 |
29 |
n=100 |
По данным исследования требуется:
1) в прямоугольной системе координат построить эмпирические ломаные регрессии Y на X и X на Y, сделать предположение в виде корреляционной связи;
2) оценить тесноту линейной корреляционной связи;
3) проверить гипотезу о значимости выборочного коэффициента корреляции, при уровне значимости α=0,05;
4) составить линейные уравнения регрессии У на X и X на У, построить их графики в одной системе координат;
5) используя полученные уравнения регрессии, оценить ожидаемое среднее значение признака Y при х=40 чел.; дать экономическую интерпретацию полученных результатов.
Для построения эмпирических ломаных регрессии вычислим условные средние
и
Вычисляем . Так как при х=5 признак Y имеет распределение
YY |
130 |
132 |
134 |
ni |
7 |
2 |
1 |
то
условное среднее
.
При х=15 признак Y имеет распределение
Y |
130 |
132 |
134 |
136 |
ni |
1 |
7 |
5 |
1 |
тогда
.
Аналогично
вычисляются все
и
.
Получим
таблицы, выражающие корреляционную
зависимость Y от X (табл.2) и X от Y (табл.3).
Таблица 2
x |
5 |
15 |
25 |
35 |
45 |
|
130,8 |
132,86 |
135,74 |
137,08 |
137,86 |
Таблица 3
y |
130 |
132 |
134 |
136 |
138 |
140 |
|
6,25 |
14 |
19,54 |
32,35 |
39 |
43,57 |
В
прямоугольной системе координат построим
точки Аi(хi,
),
соединив их отрезками, получим эмпирическую
линию регрессии Y на X. Аналогично строятся
точки В
j(
,yj)
и эмпирическая линия регрессии X на Y
(см. рис.).
Построенные
эмпирические ломаные регрессии Y на X и
X на Y свидетельствуют о том, что между
количеством работающих (X) и объёмом
складских реализаций (Y) существует
линейная зависимость. Из графика видно,
что с увеличением X величина
также
увеличивается, поэтому можно выдвинуть
гипотезу о прямой линейной корреляционной
зависимости между количеством работающих
и объёмом складских реализаций.
2. Оценим тесноту связи. Вычислим выборочный коэффициент корреляции, предварительно вычислив характеристики по формулам
,
,
,
,
,
,
:
;
;
;
;
.
Это значение rB говорит о том, что линейная связь между количеством работников и объемом складских реализаций высокая. Этот вывод подтверждает первоначальное предположение, сделанное исходя из графика.
3. Запишем теоретические уравнения линейной регрессии:
,
.
Подставляя в эти уравнения найденные величины, получаем искомые уравнения регрессии:
1) уравнение регрессии Y на X:
,
или
;
2) уравнение регрессии X на Y:
,
или
.
П
остроим
графики найденных уравнений регрессии.
Зададим координаты двух точек,
удовлетворяющих уравнению
.
Пусть х = 10, тогда
,
А1(10; 132,41), Если х = 40, тогда
,
А2(40; 137,51). Аналогично находим
точки, удовлетворяющие уравнению
,
В1(10,2; 131), В2(43; 139). Графики
прямых линий регрессии изображены ниже
на рисунке.
Контроль:
точка пересечения прямых линий регрессии
имеет координаты
.
В нашем примере: С(29,8; 135,78).
4. Найдём среднее значение Y при х=40 чел., используя уравнение регрессии Y на X. Подставим в это уравнение х=40, получим
.
Ожидаемое в генеральной совокупности среднее значение объёма складских реализаций при заданном количестве работников (х=40) составляет 137,51 д.е.
Замечание 1. Если в корреляционной таблице даны интервальные распределения, то за значения вариант надо брать середины частичных интервалов.
Замечание 2. Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам:
,
,
где h1 – шаг, т.е. разность между двумя соседними вариантами xi; С1 – «ложный нуль» вариант xi (в качестве «ложного нуля» удобно принять варианту, которая расположена примерно в середине ряда); h2 – шаг вариант Y; С2 – «ложный нуль» вариант Y.
В этом случае выборочный коэффициент корреляции
,
где
,
,
,
.
Зная
эти величины, находят
,
,
σх,
σу
по
формулам
,
,
,
.
Найденные величины подставляем в уравнения (10).
Так в
данном примере С1
=25, h1=10,
С2=136,
h2=2;
,
.
Корреляционная таблица в условных вариантах имеет вид
U V |
-2 |
-1 |
0 |
1 |
2 |
ny |
-3 |
7 |
1 |
|
|
|
8 |
-2 |
2 |
7 |
1 |
|
|
10 |
-1 |
1 |
5 |
4 |
1 |
|
11 |
0 |
|
1 |
15 |
10 |
8 |
34 |
1 |
|
|
3 |
12 |
15 |
30 |
2 |
|
|
|
1 |
6 |
7 |
nx |
10 |
14 |
23 |
24 |
29 |
n=100 |
По этой таблице и приведённым выше формулам находим характеристики:
;
;
;
;
;
;
;
;
;
;
.
В результате получаем те же уравнения линейной регрессии:
;
.◄