Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
анализ данных.docx
Скачиваний:
6
Добавлен:
14.04.2019
Размер:
84.69 Кб
Скачать

11. Некоторые принципы оценки пригодности результатов в случае больших объемов выборки.

Для достаточно больших объемов выборки, т.е. , значение среднего стандартного отклонения могут быть вычислены с большой степенью достоверности. Поэтому статистический критерий при выявлении аномальных значений результатов должны включать среднее и стандартное отклонение. Для больших объемов выборок распространенным критерием является критерий: . Этот критерий основан на сравнении абсолютного значения разности между максимальным или минимальным значением среднего квадратичного отклонения S(x). Как и в случае Q-критерия, значения , вычисленные сопоставляют с табличными значениями. Для числа степеней свободы Таблицы по критериям находятся в книгах по мат. статистике. Если экспериментальные значения больше , то для данного числа и доверительной вероятности крайнее правое значение является аномальным и его отбрасывают. Затем производится сравнение второго аномального результата, при этом берется для . Если второй результат аномальный, то процедура сравнения производится до тех пор, пока не будут проверены все аномалии. Если число отброшенных результатов превышает 30% от объема выборки, то эксперимент бракуют и все измерения производят заново.

6. Доверительная вероятность и доверительные границы.

Каждому значению доверительной вероятности соответствуют свои доверительные границы от среднего . Для вероятности 0,954 такие отклонения не превышают ±2σ. Для доверительной вероятности 0,95 эти отклонения не должны превышать ±1,96σ. Часто вместо доверительной вероятности используют величину, дополняющую её до 1. Эта величина называется уровнем значимости и обозначается . (1). Параметр U, который используется в нормальном распределении определяется следующим образом: (2) из соотношения (2) следует, что (3). (4). Из (4) следует, что для выборочного распределения следует, что (5). (6). (6) -> (5), => (7) Для p = 0,95 выражение (7) запишется следующим образом: (8). Соотношение (7) и (8) используются для расчета доверительных границ истинного значения измеряемой величины. При малой выборке вводится в рассмотрение следующая величина: (9). В этом случае формула для расчета доверительных границ t – распределения имеет следующий вид: (10).

Задачи статистической проверки гипотез.

При обработке результатов измерений довольно часто используется методы статистической обработки гипотез. Суть статистических предположений или гипотез заключается в том, что положительный или отрицательный ответ при сравнении реальной выборки с теоретической позволяет сделать заключение о характере распределения либо о той или иной закономерности изучаемой случайной величины и принять необходимые решения. Большинство задач которые решаются математической статистикой сводится к сравнению таких реальных выборок с некоторыми теоретическими распределениями. При этом делаются предположения о соответствии выборки генеральной совокупности подчиняющейся какому-либо конкретному распределению. Процесс такого сравнения называется статистической проверкой гипотез.

Критерий соответствия выборочного распределения предполагаемой статистики называются критериями значимости. Событие определяется его вероятностью. При проверке гипотез определяют эту вероятность или уровень значимости, и если оказывается, что эта вероятность велика, то событие полагают значимую. Если при заданной доверительной вероятности статистический критерий выполняется, то выдвинутая гипотеза не отклоняется с вероятностью р, в противном случае гипотеза отвергается также с вероятностью р. Т.о. статистической проверке на самом деле подлежат не одна, а две взаимноисключающие друг друга гипотезы.

Пусть предполагается, что некоторая выборка с параметрами принадлежит генеральной совокупности с параметрами. При этом можно выдвинуть гипотезу о том, что среднее значение параллельных измерений совпадает с математических ожиданием, т.е. , а выборочная дисперсия совпадает с дисперсией случайной величины х - . эта гипотеза наз-ся нульгипотезой и обозначается Н0. Гипотеза противоположная этой гипотезе наз-ся альтернативной гипотезой . Альтернативная гипотеза предполагает несоответствие выборочных параметров генеральной совокупности, т.е. . Она предполагает: , , , . Для обоих параметров в задаче статистической проверки гипотез должны быть найдены ОДЗ и критические области, в которые попадание значений параметров нежелательно.

Пусть в некоторой задаче решается следующий вопрос: будет ли значение параметра выборки равно значению генерального параметра . При этом Н0 и записываются следующим образом:

H0: ; .

Изобразим критические области для этой задачи: . Критические области расположены симметрично относительно значения . Для уровня значимости площадь каждой из этих областей равна . В этом случае гипотеза наз-ся двусторонней. Иначе выглядят критические области для задачи в которой решается вопрос: будет ли значение параметра выборки. При этом гипотеза Н0 записывается также, как и предыдущее. А гипотеза представляется неравенством: . Изобразим критические области для этой задачи. Из данных рисунков видно, что 2 альтернативные гипотезы взаимно исключают друг друга, т.к. их критические области лежат с одной стороны вероятностной кривой: либо справа, либо слева. Такие гипотезы наз-ся односторонними. Размер критической области для гипотез обоих типов определяется уровнем значимости альфа. Например, если = 0,05, то это равноценно условию при котором случай принятия гипотезы она выполняется с вероятностью 0,95 в случае отклонения гипотезы вероятность такого отклонения также равна 0,95. Односторонняя гипотеза, как и двусторонняя не может выполняется в случаев.

Т.о. имеется определенный риск, получив результат выходящие за доверительные границы вернуть гипотезу Н0. Ошибка отклонения правильной гипотезы называется ошибкой первого рода или риском исполнителя. Т.к. от принятия неправильного решения страдает сам исследователь, выполняющий измерения. Все предыдущие если истинные значения параметров генеральной совокупности являются, хотя и неизвестными, но вполне определенными и однозначными. Однако из двух или большего числа возможных значений этих параметров трудно выбрать одно по соображениям его большей достоверности. В этом случае мы рискуем принять заведомо ложную гипотезу за истинную.

Например принять за нульгипотезу , хотя на самом деле верна гипотеза в которой . Допускаемая при этом ошибка наз-ся ошибкой второго рода. Эта ошибка отделяет риск заказчика от потребителя результат исследования.