- •Элементы теории вероятностей и математической статистики
- •Содержание
- •Введение
- •Элементы комбинаторики
- •Пример. Из семи заводов организация должна выбрать три для размещения трех различных заказов. Сколькими способами можно разместить заказы?
- •Пример. 6 человек из 15 можно выбрать числом способов, равным
- •Пример. Если из текста задачи 3 убрать условие различия трех заказов, сохранив все остальные условия, получим другую задачу.
- •Пример. Сколько четырехзначных чисел можно составить из цифр 0,1,2,3,4,5, если:
- •Пример. Новый президент банка должен назначить двух новых вице-президентов из числа десяти директоров. Сколько способов существует у президента, если:
- •Элементы теории вероятностей
- •§ 1. Предмет теории вероятностей
- •§ 2. Случайные события
- •Так как , то , каково бы ни было по своей природе событие а.
- •Если а - событие невозможное, то .
- •Если в- событие достоверное, то .
- •§ 3. Случайные величины и их характеристики
- •Сводная таблица характеристик законов распределения дискретных случайных величин
- •Сводная таблица характеристик законов распределения непрерывных случайных величин
- •§ 4. Двумерные случайные величины
- •§ 5. Закон больших чисел Центральная предельная теорема
- •Элементы математической статистики
- •§ 1. Предмет математической статистики
- •§ 2. Выборочная совокупность и ее характеристики
- •§ 3. Законы распределения выборочных характеристик
- •§ 4. Статистическое оценивание числовых характеристик случайной величины и ее закона распределения
- •§ 5. Статистические гипотезы
- •§ 6. Методы регрессионного и корреляционного анализа
- •Количественные критерии оценки тесноты связи (шкала Чеддока)
- •Контрольные задания Вариант 1
- •Рекомендуемая литература
- •Критические точки распределения χ2
- •Критические точки распределения Стьюдента
- •Критические точки распределения Фишера-Снедекора
- •Элементы теории вероятностей и математической статистики
- •192171, Г. Санкт-Петербург, ул. Седова, 55/1
Количественные критерии оценки тесноты связи (шкала Чеддока)
Величина коэффициента корреляции |
0,1-0,3 |
0,3-0,5 |
0,5-0,7 |
0,7-0,9 |
0,9-1,0 |
||
Характеристика силы связи |
слабая |
умеренная |
заметная |
высокая |
весьма высокая |
||
средняя |
сильная |
|
|||||
Коэффициенты
корреляции, как правило, рассчитываются
для выборочных данных и поэтому являются
случайными величинами. После вычисления
r
возникает необходимость проверки
гипотезы о значимости полученной оценки,
то есть распространения полученных
частных результатов на генеральную
совокупность. При этом допускается
некоторая ошибка, которую можно оценить
с помощью определенных критериев или
понятия средней квадратической ошибки.
Средняя квадратическая ошибка
для линейного коэффициента корреляции
достаточно большой выборки вычисляется
по формуле
,
где ρ — коэффициент корреляции генеральной
совокупности; n — объем выборки.
Коэффициент корреляции достоверен если
он больше или равен величине трёх своих
ошибок.
Для оценки значимости r также применяется t-критерий Стьюдента. При этом определяется фактическое значение критерия tr
.
Исчисленное tr сравнивается с критерием tк, которое берется из таблицы значений t-Стьюдента с учетом заданного уровня значимости α и числа степеней свободы k. Если tr>tк, то величина коэффициента корреляции признается существенной.
Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить «полезность» факторного признака при построении уравнения регрессии. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
К уравнениям регрессионного анализа относятся прямая, гипербола, парабола, экспонента, логарифмическая функция и др.
Применение
метода наименьших квадратов позволяет
получить достаточно точные теоретические
значения линии однофакторной регрессии
и, соответственно, ее графическое
изображение. Подобранной считается та
модель расчетов теоретической линии,
для которой квадрат отклонений
эмпирических данных у
от теоретической линии регрессии
минимальный, т.е.
.
Для определения параметров уравнения
на основе требований метода наименьших
квадратов необходимо решить систему
нормальных уравнений
Множественные уравнения регрессии позволяют вычислить теоретические значения результативного признака в зависимости от всех включенных в множественное уравнение факторов (без графического его изображения одной теоретической линией).
Различный
подход к истолкованию результатов
регрессионного анализа исходит из
разного понимания смысла параметров
уравнений регрессии, полученных методом
наименьших квадратов. Например, в
уравнении однофакторной линейной
регрессии
параметр a1
означает среднее изменение величины
результативного признака у
в зависимости от изменения значений
факторного признака х,
если все остальные факторы, влияющие
на результативный признак у
и не связанные с факторным, рассматриваются
как неизменные. Этот параметр показывает,
насколько в среднем величина одного
признака Y
изменяется при изменении на единицу
меры другого корреляционно связанного
с Y
признака X.
Параметр а0
(свободный член) отражает усредненное
влияние всех неучтенных факторов. Если
первое требование трудно учесть, то
второе - истолковать, особенно в тех
случаях, когда он имеет отрицательное
значение.
При исследовании корреляции между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (рубли, секунды, килограммы и т.д.), очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель графически отображает зависимость между переменными величинами xi и yi в системе прямоугольных координат. Эту графическую зависимость называют также диаграммой рассеивания или корреляционным полем.
Пример. В результате комбинационной группировки 100 рабочих по общему стажу работы и месячной заработной плате получена следующая корреляционная таблица
Группы рабочих по общему стажу работы (лет) |
Группы рабочих по размеру заработной платы (руб.) |
|
||||||
|
|
|
|
|
|
|
|
|
100-120 |
120-140 |
140-160 |
160-180 |
180-200 |
200-220 |
220-240 |
Итого |
|
0-5 |
5 |
6 |
14 |
7 |
|
|
|
32 |
5-10 |
|
3 |
4 |
7 |
10 |
2 |
|
26 |
10—15 |
|
1 |
2 |
6 |
5 |
4 |
|
18 |
15-20 |
|
|
|
4 |
1 |
6 |
1 |
12 |
20—25 |
|
|
|
1 |
3 |
1 |
3 |
8 |
25—30 |
|
|
|
|
1 |
2 |
1 |
4 |
Итого |
5 |
10 |
20 |
25 |
20 |
15 |
5 |
100 |
Для характеристики связи между рассматриваемыми показателями необходимо провести корреляционно-регрессионный анализ двумерной модели.
Решение. Обозначим общий производственный стаж рабочих через х, а их месячную заработную плату — через у.
Для графического изображения зависимости откладываем в прямоугольной системе координат по оси абсцисс значения группировочного признака-фактора (производственный стаж), а по оси ординат — средние значения зависимого признака (заработную плату).
Рис. 6.1. Корреляционное поле
На основе анализа корреляционного поля можно предположить, что между заработной платой и стажем рабочих существует прямая регрессия, уравнение которой будет:
.
Проведем сначала корреляционный анализ. Основная задача корреляционного анализа (являющаяся основной и в регрессионном анализе) состоит в оценке уравнения регрессии.
Для нахождения значений величин a0 и a1, входящих в систему нормальных уравнений, составим расчетные таблицы, введя в них одновременно и величины, необходимые для расчета коэффициента корреляции (в качестве вариант возьмем середины интервалов):
x y |
110 |
130 |
150 |
170 |
190 |
210 |
230 |
my |
у my |
у2 my |
2,5 |
5 |
6 |
14 |
7 |
|
|
|
32 |
80 |
200 |
7,5 |
|
3 |
4 |
7 |
10 |
2 |
|
26 |
195 |
1462,5 |
12,5 |
|
1 |
2 |
6 |
5 |
4 |
|
18 |
225 |
2812,5 |
17,5 |
|
|
|
4 |
1 |
6 |
1 |
12 |
210 |
3675 |
22,5 |
|
|
|
1 |
3 |
1 |
3 |
8 |
180 |
4050 |
27,5 |
|
|
|
|
1 |
2 |
1 |
4 |
110 |
3025 |
mx |
5 |
10 |
20 |
25 |
20 |
15 |
5 |
100 |
1000 |
15225 |
X mx |
550 |
1300 |
3000 |
4250 |
3800 |
3150 |
1150 |
17200 |
|
|
X2 mx |
60500 |
169000 |
450000 |
722500 |
722000 |
661500 |
264500 |
3050000 |
|
|
∑у mxy |
12,5 |
50 |
90 |
237,5 |
250 |
247,5 |
112,5 |
1000 |
|
|
x∑у mxy |
1375 |
6500 |
13500 |
40375 |
47500 |
51975 |
25875 |
187100 |
|
|
Коэффициент корреляции вычисляется по формуле
.
Из таблицы определяется величина ∑тху, равная 187100. Подставим найденные величины в формулу коэффициента корреляции и получим
Полученное значение коэффициента корреляции указывает на наличие достаточно тесной линейной связи между общим производственным стажем и заработной платой рабочих.
Если имеются равные интервалы отдельно по факторному и по результативному признакам, как, например, в данной задаче, нахождение коэффициента корреляции целесообразно производить с помощью следующей формулы
,
где
и
условные варианты признаков при равных
интервалах; тх,
ту,
и тху—частоты
групп и подгрупп по х
и
у.
Так,
для рассматриваемой задачи х0=12,5,
hх=5,
y0=170
и hv
= 20. Все дальнейшие вычисления аналогичны
рассмотренным ранее.
Средняя
ошибка коэффициента корреляции
определяется по формуле
,
где
r
—
коэффициент корреляции; n
— объем совокупности. Подставим в эту
формулу полученные данные
.
Отношение коэффициента корреляции к его погрешности равно 13 (0,69:0,052<0,52·3), следовательно, можно считать, что полученный коэффициент корреляции достаточно точно выражает степень связи рассматриваемых показателей.
Коэффициент корреляции, уменьшенный на трехкратную величину погрешности, дает гарантийный минимум, а увеличенный на трехкратную величину погрешности — соответственно гарантийный максимум. Так, в данной задаче гарантийный минимум составляет 0,534=0,69—3·0,052, а гарантийный максимум равен 0,846=0,69+З·0.052. Это означает, что для рассматриваемого примера можно ожидать, что не меньше 28,5% (0,534x0,534x100) вариации месячной заработной платы рабочих вызвано вариацией величины общего производственного стажа.
Проверим
гипотезу Н0
о равенстве
нулю генерального коэффициента корреляции
против альтернативы Н1
о неравенстве нулю коэффициента
корреляции. Для проверки гипотезы Н0
против альтернативы Н1
используем t-критерий
Стьюдента
с (n-2)
степенями свободы
.
Вычисленное tr
сравним с критерием tк,
которое возьмем из таблицы значений
t-Стьюдента
с учетом заданного уровня значения
α=0,05
и числа степеней свободы k=(n-2).
В нашем примере tr=
,
а tк=1,98.
Таким образом, принимается гипотеза Н1
с
вероятностью ошибки α=0,05.
Полученная оценка коэффициента корреляции
является значимой.
Также проверить значимость коэффициента корреляции на уровне α=0,05 можно при помощи критерия Фишера. По таблицам распределения статистики r «Таблица Фишера-Иейтса» получаем:
гкр= rтабл(0,05;98)< rтабл(0,05;90)=0,205.
Критическая
область имеет вид
.
Так,
rрасч=0,69
попадает в критическую область
(|0,69|>0,205>гкр).
Гипотеза Н0:р=0
отвергается
с вероятностью ошибки 0,05. Следовательно,
коэффициент корреляции р
значимо
отличается от нуля. Можно считать
доказанной связь между случайными
величинами х
и у.
Вычислим коэффициенты уравнения регрессии, для этого подставим найденные значения в систему уравнений и получим:
.
В результате совместного решения уравнений находим: a0=143,1 и a1=2,89. Искомое уравнение прямой регрессии примет вид:
.
Это уравнение показывает, что между общим производственным стажем и заработной платой рабочих имеется прямая связь - с увеличением стажа на один год размер месячной заработной платы возрастает в среднем на 2р.89к. (а1).
Корреляция и регрессия тесно связаны между собой - первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. И корреляция, и регрессия служат для установления соотношений между явлениями и для определения наличия или отсутствия связи между ними.
