- •Раздел 11. Элементы математической статистики
- •11.1 Вариационный ряд и его статистические характеристики.
- •Статистическое распределение выборки
- •Геометрическое представление
- •Выборочные характеристики статистического распределения
- •Задачи для самостоятельного решения:
- •Контрольные вопросы:
- •11.2 Статистические оценки параметров распределения
- •11.3 Статистические методы обработки экспериментальных данных
- •Проверка гипотезы о соответствии эмпирического распределения нормальному закону
- •Отбрасывание «выскакивающих» вариант
- •Сравнение средних арифметических и дисперсий двух вариационных рядов
- •Регрессионный и корреляционный анализ
- •Задачи для самостоятельного решения
- •Контрольные вопросы
11.3 Статистические методы обработки экспериментальных данных
Можно выделить следующие задачи статистического анализа:
По данным выборки дать описание генеральной совокупности, построив доверительные интервалы для параметров распределения.
Определить значимость различия между двумя совокупностями (чаще всего сравнивают опыт с контролем).
Изучить статистическую связь между двумя совокупностями (регрессионный и корреляционный анализ).
Решению любой из этих задач предшествует общая процедура, включающая этапы:
а) Упорядочение эмпирической совокупности. Представление вариационного ряда;
б) Выбор математической модели распределения;
в) Отбрасывание «выскакивающих» вариант (или оценка грубых ошибок).
Процедура построения вариационного ряда подробно рассмотрена в разделе 11.1. Остановимся на процедуре выбора математической модели распределения, ее же можно отнести к задаче проверки гипотез.
Проверка гипотезы о соответствии эмпирического распределения нормальному закону
Рассмотрим один из наиболее распространенных
критериев – критерий
(К.Пирсона)
применительно к нормальному закону с
плотностью распределения:
.
В соответствии с этим критерием, меру
близости эмпирического распределения
к теоретическому (нормальному закону),
с параметрами
и
,
оценивают по величине:
,
где:
mi - частоты эмпирического распределения,
npi - частоты предполагаемого теоретического (нормального) распределения;
- число интервалов разбиения в эмпирическом
распределении.
Полученное расчетное значение
сравнивают с теоретическим, табличным
значением
(
– уровень значимости,
– число степеней свободы, в данном
случае
.
В случае
,
нулевая гипотеза Н0 о совпадении
эмпирического распределения с
теоретическим принимается, в противном
случае, если
,
гипотеза отвергается, нельзя считать,
что эмпирическое распределение
соответствует теоретическому –
нормальному закону распределения.
Замечания: 1) Критерием
можно пользоваться только при достаточно
большом числе вариант (
).
2) Число степеней свободы v равно разности между значением числа независимых величин, использованных при вычислении этой статистики (в данном случае k), и числом уравнений связи, которых, в случае нормального распределения, три:
;
;
.
Эти уравнения связи определяют те
значения характеристик
,
по которым строилось теоретическое
нормальное распределение.
Пример 1. Сравним эмпирическое распределение содержания воды в тканях (см. п.11.1 пример 3) с теоретическим нормальным законом.
Расчеты проводятся по схеме:
Строится интервальный вариационный ряд и вычисляются его выборочные характеристики (см. п.11.1 пример 3).
Находятся новые границы интервалов zi в долях S относительно
по формуле:
(
).
При этом начало нового интервала и конец
последнего принимаются, соответственно,
;
.
Для каждого zi (
)
находим значения интегральной функции
Лапласа
по соответствующей таблице.Для каждого интервала определяем:
а) Теоретическую вероятность
.
б) Теоретические частоты
(п – объем выборки).
в) Квадрат разности эмпирической и
теоретической частот
.
г) Отношение
.
5) Рассчитываем сумму:
.
Для нашего примера расчеты по указанной схеме приведены в следующей таблице:
№ интер-вала |
Границы интервалов (ai-1,ai) |
mi |
Границы интервалов (zi-1,zi) |
|
|
|
|
|
1. |
(87.25,87.75) |
4 |
( |
-0.500 |
0.122 |
6.1 |
4.41 |
0.72 |
2. |
(87.75,88.25) |
11 |
(-1.165,-0.640) |
-0.378 |
0.1391 |
6.96 |
16.22 |
2.32 |
3. |
(88.25,88.75) |
11 |
(-0.64,-0.12) |
-0.2389 |
0.1911 |
9.16 |
3.38 |
0.37 |
4. |
(88.75,89.25) |
10 |
(-0.120,0.408) |
-0.0478 |
0.2048 |
10.24 |
0.058 |
0.00 |
5. |
(89.25,89.75) |
6 |
(0.408,0.934) |
0.1570 |
0.1670 |
8.34 |
5.47 |
0.67 |
6. |
(89.75,90.25) |
3 |
(0.934,1.470) |
0.3240 |
0.1052 |
5.26 |
5.11 |
0.97 |
7. |
(90.25,90.75) |
3 |
(1.470,2.000) |
0.4292 |
0.0480 |
2.40 |
0.36 |
0.15 |
8. |
(90.75,91.25) |
0 |
(2.000,2.500) |
0.4772 |
0.0165 |
0.82 |
0.67 |
0.65 |
9. |
(91.25,91.75) |
2 |
(2.500,
|
0.4937 |
0.0063 |
0.32 |
2.82 |
|
СУММА |
50 |
|
|
1.000 |
50.00 |
|
5.85 |
|
В таблице два последних интервала
объединены, границы объединенного
интервала в z
,
эмпирическая частота в нем равна 2, а
теоретическая – 1,14. Объединение крайних
интервалов рекомендуется в случаях,
когда имеются «пустые» интервалы. Сумма
значений по последнему столбцу
характеризует расчетное значение
критерия
.
Число степеней свободы, с учетом
объединения интервалов, равно 8 – 3 = 5.
В таблице 5 приложения находим – в
строке, соответствующей степени свободы
5, первое значение, большее
и соответствующее ему
Значению
соответствует
Значит, с вероятностью 1 – 0.2 = 0.8 (или с
надежностью 80%) можно считать, что
исследуемое эмпирическое распределение
совпадает с теоретическим нормальным
законом
