
- •Лекции № 8, 9 Обработка и анализ экспериментальных данных
- •8.1. Проверка данных и исключение резко отклоняющихся значений
- •8.2. Графическая обработка данных
- •8.3. Математический анализ данных
- •8.4. Статистическая обработка и анализ экспериментальных данных
- •8.4.1. Основные понятия выборочного метода
- •8.4.2. Доверительные интервалы и доверительные вероятности
- •8.4.3. Оценка генеральных среднего и дисперсии
- •8.4.4. Проверка гипотезы о тождественности эмпирических и теоретических функций распределения
- •8.4.5. Сравнение дисперсий и средних
- •8.4.6. Дисперсионный анализ
- •8.4.7. Корреляционный анализ
8.4. Статистическая обработка и анализ экспериментальных данных
В настоящее время статистическая обработка данных играет огромную роль во всех отраслях науки и техники. Она позволяет достаточно корректно найти закономерности при большом объеме данных в условиях неопределенности и при наличии случайных ошибок. При проведении статистических исследований используется выборочный метод.
Статистическую обработку полученных данных делят на первичную и вторичную. К первичной обработкеотносят такие процедуры, как сортировка и объединение данных, представление их в виде, удобном для последующей работы, анализ и исключение резко выделяющихся значений.Вторичная обработкапредставляет непосредственное вычисление параметров случайных величин: оценка средних и дисперсий, корреляционных моментов и коэффициентов регрессии, проверка статистических гипотез.
8.4.1. Основные понятия выборочного метода
Применение методов теории вероятностей и математической статистики к обработке наблюдений оказывается возможным благодаря тому, что условия эксперимента полностью соответствуют основной схеме статистических испытаний, называемой выборочным методом.
Выборочный метод в самой общей форме выглядит следующим образом. Пусть имеется некоторая большая совокупность элементов N, называемаягенеральной совокупностью. Из нее извлекаютсяnобъектов, которые образуют выборку (числоnназываетсяобъемом выборки). Этиnобъектов подвергаются детальному исследованию, по результатам которого требуется описать всю генеральную совокупность или какие-нибудь ее свойства. Например, с помощью выборочного метода можно установить закон распределения случайной величины и определить параметры этого распределения.
Любое экспериментальное наблюдение всегда ограничено по объему. Следовательно, полученные в результате наблюдения значения характеристик распределения случайной величины всегда будут отличаться от аналогичных значений для генеральной совокупности. Значения характеристик распределения случайной величины, полученные по результатам ограниченного числа наблюдений, будут являться оценкамизначений соответствующих параметров генеральной совокупности. Распределение случайной величины, установленное по результатам этих наблюдений, будет называтьсяэмпирическим распределением.
Очевидно, что чем больше объем выборки, тем ближе будут выборочные значения к соответствующим значениям генеральной совокупности. Так как выборочные оценки параметров зависят от объема выборки, то они будут являться случайными величинами с соответствующими законами распределения. Чтобы определить точность оценки параметров генеральной совокупности, необходимо исследовать распределение соответствующих выборочных параметров, то есть определить доверительные интервалы.
8.4.2. Доверительные интервалы и доверительные вероятности
Выборочные параметры являются приближенными оценками соответствующих генеральных параметров. Точность подобных оценок определяется неравенством
где
-
оценка соответствующего параметра
(среднего, дисперсии),
- квантили
распределения соответствующего
параметра.
Квантилем
распределения случайной величиныс
распределениемF(x)
называется решение уравнения
,
то есть квантиль
есть такое значение случайной величины,
для которой вероятность
.
Из приведенной зависимости видно, что при P=1мы имеем бесконечный интервал для оценки границ параметра. Чтобы избежать этого вводят понятиедоверительной вероятности, то есть вероятности, при которой оценка границ изменения параметра будет практически достоверной. В зависимости от конкретных условий принимаютP = 0,95; 0,98; 0,99; 0,999.соответствующие доверительной вероятности квантильные границы называются доверительными границами, а образуемый ими интервал – доверительным интервалом.
Например, оценка генерального среднего по одному наблюдению x0= 3 при нормальном распределении со среднеквадратическим отклонением= 0,9 при доверительной вероятностиP= 0,95 будет0.025= 1,236;0.975= 4,764. То есть, можно сказать, что с вероятностью 0,95 генеральное среднееxcбудет лежать в интервале
С доверительной вероятностью непосредственно связано понятие уровня значимости, который показывает, сколько раз в ста испытаниях мы рискуем ошибиться, объявив изучаемое событие неслучайным.
Чаще всего уровень значимости применяется при проверке статистических гипотез, которые имеют самые различные формулировки, но, в конечном счете, все они являются гипотезами о характере распределения случайной величины.
Принимая решение по результатам проверки гипотезы, мы можем допустить два вида ошибок:
ошибку первого рода, когда будет отвергнута гипотеза, которая на самом деле верна;
ошибку второго рода, когда будет принята неверная гипотеза.
Вероятность ошибки первого рода не выше уровня значимости, следовательно, достаточно мала. Вероятность ошибки второго рода зависит от характера проверяемой гипотезы, от способа ее проверки и многих других причин. Эта вероятность тем меньше, чем «жестче» принятый уровень значимости.