
- •Раздел 1. Элементы теории вероятностей и математической статистики 2
- •Раздел 2. Основы проверки статистических гипотез 65
- •Раздел 1. Элементы теории вероятностей и математической статистики
- •1. Основные определения и теоремы
- •1.1. Предмет теории вероятности
- •1.2. Событие как результат испытания
- •1.3. Частость и вероятность. Классическое определение вероятности
- •1.4. Теорема сложения вероятностей
- •1.5. Теорема умножения вероятностей
- •2. Повторные независимые испытания
- •2.1. Биномиальное распределение вероятностей
- •2.2. Наивероятнейшее число появлений события
- •2.3. Асимптотическая формула биномиального распределения (локальная терема Лапласа). Формула Пуассона
- •2.4. Интегральная теорема Лапласа
- •Упражнения.
- •3. Случайная величина и ее числовые характеристики
- •3.1. Случайная величина и ее распределение
- •3.2. Математическое ожидание и его свойства
- •3.3. Дисперсия и среднее квадратическое отклонение
- •3.4. Нормальный закон распределения и понятие о теореме Ляпунова
- •4. Закон больших чисел
- •4.1. Неравенства Маркова и Чебышева
- •4.2. Теорема Чебышева
- •5. Основные сведения из математической статистики
- •5.1. Генеральная совокупность и выборка
- •5.2. Устойчивость выборочных средних
- •5.3. Определение параметров выборки с помощью теоремы Ляпунова
- •5.4. Понятие о доверительных границах для средних
- •5.5. Примеры математической обработки данных выборочного наблюдения
- •5.6. Понятие о критериях согласия
- •6. Элементы теории корреляции
- •6.1. Функциональная и корреляционная зависимости
- •6.2. Линейная корреляция.
- •6.3. Коэффициент корреляции
- •6.4. Упрошенный способ вычисления коэффициента корреляции
- •6.5. Простейшие случаи криволинейной корреляции
- •6.6. Понятие о множественной корреляции
- •Упражнения
- •Раздел 2. Основы проверки статистических гипотез
- •1. Статистические модели
- •2. Проверка статистических гипотез (общие положения)
- •3. Примеры статистических моделей и гипотез, ранги и ранжирование
- •4. Проверка статистических гипотез (прикладные задачи)
- •4.1. Схема испытаний Бернулли
- •4.2. Критерий знаков для одной выборки
- •5. Проверка гипотез в двухвыборочных задачах
- •5.1. Критерий Манна-Уитни
- •5.2. Критерий Уилкоксона
- •6. Парные наблюдения
- •6.1. Критерий знаков для анализа парных повторных наблюдений
- •6.2. Анализ повторных парных наблюдений с помощью знаковых рангов (критерий знаковых ранговых сумм Уилкоксона)
- •Список использованной литературы
- •Список рекомендуемой литературы
6.2. Линейная корреляция.
Этот вид корреляционной зависимости весьма важен, так как очень многие корреляционные связи, характерные для количественных признаков наблюдаемых однородных фактов, близки к линейным. Данные наблюдения, представленные в виде корреляционной таблицы, и найденные из этой таблицы пары соответственных значений х и или у и , используются для отыскания параметров уравнений прямых регрессии
и
.
Эта операция, называемая выравниванием,
обычно выполняется по способу наименьших
квадратов, сущность которого состоит
в таком подборе параметров линии
регресси, при котором достигается
минимум
.
Разберем применение данного способа в общем виде для каждого из записанных уравнений регрессии. При этом для иллюстрации используем данные корреляционной таблицы 1 распределения растений житняка по общему весу и по весу семян.
1. Уравнение прямой регрессии у по х. При отыскании по способу наименьших квадратов параметров линейной функции у=ах+b на основании данных наблюдения о парах значений х и у, связанных однозначным соответствием, используется система нормальных уравнений
Здесь коэффициенты определяются простым суммированием слагаемых в соответствии с количеством пар значений х и у.
Если же требуется с помощью способа наименьших квадратов определить параметры уравнения, связывающего значения х с соответственными частными средними , по данным не простой, а корреляционной таблицы, то структура коэффициентов и свободных членов нормальных уравнений должна отразить все данные корреляционной таблицы.
а) Коэффициенты, соответствующие суммам
и
,
должны включать в операцию суммирования
все значения х как повторяющиеся,
так и неповторяющиеся. Количество
значений
определяется числом
,
поэтому сумма этих значений х равна
.
Аналогично сумма значений
равна
и т. д. Отсюда сумма всех значений х
выразится в виде
Суммирование квадратов переменной х строится также и дает
б) Свободный член, соответствующий сумме
,
должен представить сумму всех частных
средних
.
При этом для каждого значения х
количество соответственных частных
средних
определяется количеством таких значений
самого х. Поэтому значению
соответствует
,
частных средних
,
значению
соответствует
частных средних
и т.д. Сумма всех частных средних
имеет вид
.
в) Свободный член, соответствующий сумме
,
должен представить сумму всех возможных
произведений значений х на
соответствующие частные средние
.
Количество разных произведений здесь
определяется количеством соответственных
значений х. Поэтому сумма всех
произведений вида
имеет вид
.
Удовлетворяющая указанным требованиям система нормальных уравнений для отыскания значений параметров уравнения прямой регрессии имеет следующий вид:
Определение корней этой системы предварительно требует некоторого преобразования коэффициентов и свободных членов.
Коэффициенты системы преобразуются так:
Развернутая запись свободного члена
позволяет для каждого слагаемого
воспользоваться переходом от частных
средних
к соответственным частным значениям
у.
В самом деле, если , то
.
Поэтому
и аналогично
Почленное сложение всех равенств дает в соответствии с принятой структурой корреляционной таблицы 2
После приведения этого результата к выражению, содержащему среднее значение у, получится
.
Преобразование свободного члена
выполняется аналогично. Здесь при
слагаемое
приводится к виду
Последующая запись всех остальных
слагаемых такого же вида при
,
и суммирование соответствующих выражений
дает результат
Сохраняя эту запись для выполнения подсчетов, можно привести полученный результат к выражению со средним значением ху.
Двойной знак суммирования позволяет выполнять суммирование в любом порядке: сначала по горизонтали (меняя нумерацию частных значений у), а затем по вертикали (меняя нумерацию частных значений х), или, наоборот, сначала по вертикали, а затем по горизонтали.
По структуре корреляционной таблицы:
или
Отсюда
так как
В
преобразованном виде система такова:
или
Для определения параметра a
достаточно после умножения членов
второго уравнения на
почленно вычесть это уравнение из
первого:
,
или
Параметр b определяется непосредственно из второго уравнения:
.
Подставляя полученное выражение в уравнение прямой регрессии y по х, т. е. , получим
,
или
.
Коэффициент а в уравнении прямой
регрессии называется коэффициентом
прямой регрессии у по х и обозначается
символом
.
Таким образом,
и окончательная запись уравнения прямой регрессии y по x таково:
.
Составим такое уравнение с числовыми параметрами для распределения растений житняка по данным корреляционной таблицы 1 об общем весе (x) и весе семян (y) растений. Вычисление необходимых параметров можно проводить по нижеследующей системе подсчетов, соответствующей выполненному общему решению.
1) Составляем вспомогательную таблицу.
2) По данным табл.
4
Таблица 4
|
|
|
|
|
5 |
525 |
75 |
5625 |
1875 |
10 |
1035 |
200 |
101225 |
7000 |
19 |
1945 |
457 |
192025 |
20565 |
16 |
1655 |
478 |
163025 |
26290 |
11 |
1165 |
393 |
114225 |
25545 |
16 |
1675 |
648 |
165625 |
48600 |
6 |
685 |
283 |
67225 |
24055 |
6 |
695 |
318 |
69025 |
30210 |
8 |
8105 |
469 |
811025 |
49245 |
2 |
2115 |
126 |
213225 |
14490 |
1 |
1125 |
68 |
115625 |
8500 |
N=100 |
6400 |
3515 |
466500 |
256375 |
3) Определяем коэффициент регрессии у по х:
4) Записываем уравнение прямой регрессии у по x:
,
или окончательно
2. Уравнение прямой регрессии х по у. Система нормальных уравнений для отыскания параметров с и d уравнения прямой регрессии х по у, получаемая в результате применения способа наименьших квадратов, имеет вид
По аналогии с преобразованиями, проведенными для случая регрессии у по х, можно записать, что
Нормальные уравнения можно переписать в упрощенном виде:
или
Для определения
параметра с
из членов первого уравнения вычитаются
члены второго уравнения, умноженные на
:
,
или
Параметр d определяется непосредственно из второго уравнения:
.
Замена d этим выражением в уравнении прямой регрессии дает
или
.
Коэффициент с в этом уравнении
называют коэффициентом прямой
регрессии х по у и обозначают символом
.
Таким образом,
и окончательная запись уравнения прямой регрессии х по у такова:
.
Заметим, что обе прямые регрессии, как
видно из их уравнений, проходят через
точку
.
На примере распределения растений житняка по данным корреляционной таблицы о весе семян (у) и общем весе (х) растений составим уравнение прямой регрессии х по у с числовыми параметрами. Все необходимые вычисления для подсчета параметров проводятся в таком же порядке, как это выполнено для уравнения прямой регрессии у по х.
1) Составляем вспомогательную таблицу.
2) По данным табл. 5
3) Определяем коэффициент регрессии х по у:
Таблица 5
|
|
|
|
|
3 |
313 |
75 |
3169 |
975 |
10 |
1018 |
360 |
10324 |
6480 |
20 |
2023 |
900 |
20529 |
20700 |
9 |
928 |
445 |
9784 |
12460 |
14 |
1433 |
850 |
141089 |
28050 |
11 |
1138 |
765 |
111444 |
29070 |
9 |
943 |
665 |
91849 |
28595 |
8 |
848 |
670 |
82304 |
32160 |
6 |
653 |
590 |
62809 |
31270 |
6 |
658 |
630 |
63364 |
36540 |
1 |
163 |
105 |
13969 |
6615 |
3 |
368 |
345 |
34624 |
23460 |
N=100 |
3515 |
6400 |
142465 |
256375 |
4) Записываем уравнение прямой регрессии х по y:
,
или окончательно
Ниже будет показано, что оба уравнения прямых регрессии могут быть получены одним расчетом с помощью коэффициента корреляции.