
- •Компьютерный анализ данных
- •Введение
- •1. Способы измерения информации и представления данных.
- •1.1. Многомерные статистические данные. Наблюдения, объекты и признаки. Математическое и табличное представление многомерных данных
- •1.2. Виды измерительных шкал
- •2. Простейшие способы моделирования данных
- •2.1. Зачем нужно моделировать данные
- •2.2. Моделирование данных с помощью функции слчис()
- •2.3. Моделирование данных равномерного распределения
- •2.4. Простейший способ моделирования нормальной случайной величины
- •2.5. Моделирование законов распределения случайных величин средствами excel
- •3. Предварительный анализ данных одномерных признаков
- •3.1. Расчет средних значений и дисперсии одномерного признака
- •3.2. Диапазон значений признака
- •3.3. Расчет частотного ряда признака
- •3.4. Графическое представление данных. Гистограмма.
- •3.5. Предварительный анализ многомерных данных. Диаграмма рассеивания
- •4. Моделирование данных в более сложных случаях
- •4.1. Метод неравномерной рулетки
- •4.2. Метод отбраковки
- •4.3. Моделирование многомерного нормального распределения.
- •5. Методы преобразования данных
- •5.1. Нормировка значений признака
- •5.2. Преобразование измерительных шкал
- •6. Проверка статистических гипотез
- •6.1. Принцип решения задач проверки статистических гипотез
- •6.2. Сглаживание эмпирических данных теоретической функцией плотности ( )
- •6.3. Непараметрический критерий оценки зависимости признаков ( )
- •6.4. Проверка гипотезы равенства средних двух выборок (t - критерий)
- •6.5. Дисперсионный анализ –классификация по одному признаку (f - критерий)
- •6.6. Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •7. Методы многомерной Классификации
- •7.1. Постановка задачи
- •7.2. Меры сходства объектов многомерной выборки
- •7.3. Меры сходства групп объектов (классов)
- •7.3. Иерархический метод классификации
- •7.4. Классификация многомерных наблюдений методом k - средних
- •Практическое № 2 Предварительный анализ - одномерных признаков
- •Практическое № 3 Предварительный анализ - многомерных данных
- •Практическое № 4 Метод неравномерной рулетки
- •Практическое № 5 Метод отбраковки
- •Практическое № 6
- •Практическое № 7 Методы преобразования данных
- •Практическое № 8 Проверка гипотезы о согласии эмпирических данных теоретическому закону распределения.
- •Практическое № 9 Непараметрический критерий оценки зависимости признаков
- •Практическое № 10 Проверка гипотезы равенства средних двух выборок (t - критерий)
- •Практическое № 11 Дисперсионный анализ – классификация по одному признаку (f - критерий)
- •Практическое № 12 Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •Практическое № 13 Расчет матриц сходства объектов выборки
- •Практическое № 14 Иерархический метод классификации
- •Практическое № 15 Классификация выборки методом k - средних
- •Список рекомендуемой литературы
- •Содержание
6. Проверка статистических гипотез
6.1. Принцип решения задач проверки статистических гипотез
Статистическая гипотеза – это предположение (суждение) о генеральной совокупности – ее распределении или параметрах, подвергаемое проверке по выборке, в результате которой она принимается или отвергается. Формулировка гипотезы должна исходит из возможности использования известных законов распределения.
Сущность проверки статистических гипотез заключается в том, чтобы установит, согласуются или нет данные наблюдений и выдвинутая гипотеза. Можно ли расхождение между гипотезой и результатами выборочных наблюдений отнести за счет случайной погрешности, обусловленной механизмом случайного отбора.?
Выдвигаемая
гипотеза называется нулевой и обозначается
,
а противоречащая ей называется
альтернативной гипотезой и обозначается
.
Методика доказательства статистических гипотез разрабатывается в теории проверки статистических гипотез, основные принципы которой сформулированы известными математиками Е. Нейманом и Э. Пирсоном. В основе методики (схемы) доказательства лежит расчет некоторых статистических величин, которые называются критериями проверки статистических гипотез. Таким образом, при проверке статистических гипотез мы используем готовые схемы проверки гипотез или приводим задачу к виду, позволяющему воспользоваться готовой схемой.
Критерии проверки
статистических гипотез – это
показатели, вычисляемые на основании
фактических наблюдений, позволяющие
сделать вывод о принятии или опровержении
проверяемой гипотезы. Значение критерия
является случайной величиной, та как
вычисляется на основе результатов
выборочного наблюдения. Это например,
t - критерий Стьюдента,
F – критерий Фишера, хи – квадрат
Пирсона (
)
и другие.
Решение о принятии
или отклонении нулевой гипотезы
формулируется на основе выборки и
зависит от значения статистического
критерия. Множество возможных значений
статистического критерия можно разделить
на два непересекающихся подмножества
и
,
.
Проверяемая нулевая гипотеза
должна быть отвергнута, если фактическое
значение критерия
(рассчитанное по данным выборки)
принадлежит подмножеству
.
Подмножество
называется критической областью.
Подмножество
называется областью принятия гипотезы.
Критическая область может быть
двухсторонней или односторонней
(левосторонней или правосторонней) рис.
6.1 – рис.6.3. Точки
,
разделяющие две области, называются
критическими точками.
Проверка статистической гипотезы не является исчерпывающим доказательством ее верности или неверности. Ее принятие означает лишь ее непротиворечивость имеющимся фактическим (выборочным) данным. Степень уверенности в принятии гипотезы может быть определена через вероятности совершения ошибок. Ошибки, возникающие при проверке статистических гипотез, могут быть двух видов: ошибки первого рода и ошибки второго рода.
Рис. 6.1. Двухсторонняя критическая область
Рис. 6.2. Правосторонняя критическая область
Рис. 6.3. Левостороняя критическая область