Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дрейзин В.Э., Кочура А.В. - Управление качество...doc
Скачиваний:
4
Добавлен:
01.03.2025
Размер:
3.62 Mб
Скачать

5.7.3. Выборочные оценки параметров нормального распределения

Нормальный закон распределения полностью справедлив для характеристики генеральной совокупности, когда число значений случайной величины стремится к бесконечности. Применительно к контролю качества продукции это справедливо для совокупности из многих партий изделий, выпускаемых одним и тем же предприятием на протяжении длительного времени. Однако в выборочном контроле ставится более узкая задача – оценить качество отдельной партии изделий по результатам контроля небольшой выборки изделий из этой партии и принять решение о приёмке или браковке всей партии. В этом случае генеральной совокупностью условно считается партия изделий, из которой берётся выборка, что вполне допустимо при объёме партий в несколько сотен изделий и выше. При этом приходится решать два вопроса:

1. Подчиняется ли распределение контролируемого параметра для генеральной совокупности (под ней понимается партия изделий) нормальному закону?

2. Как по данным выборки оценить параметры этого распределения?

К первому из них мы вернёмся позднее, а сейчас рассмотрим, как по выборочным данным можно оценить параметры распределения генеральной совокупности, если последнее подчиняется нормальному закону.

Как мы видели, нормальное распределение характеризуется двумя параметрами: математическим ожиданием М(х) и дисперсией σ2 (или среднеквадратическим отклонением ). Первый определяет центр распределения, а второй характеризует рассеяние случайной величины относительно центра распределения. Однако при выборочном контроле они остаются для нас неизвестными, поэтому мы вынуждены пользоваться выборочными оценками этих параметров. Выборочной оценкой некоторого статистического параметра А является функция, подсчитываемая по результатам выборочных измерений, и дающая достаточно хорошее приближение к истинному значению А. Такая функция называется точечной оценкой параметра А.

Поскольку точечная оценка всегда является приближённой, необходимо определить с какой точностью она определяет параметр А. Но так как истинное значение параметра А всегда остаётся неизвестным, то характеризовать точность оценки можно только путём определения границ интервала значений параметра А, в котором с заданной вероятностью Р должно лежать истинное значение параметра А. Такая оценка называется интервальной. При этом вероятность Р называется доверительной вероятностью, сам интервал, в котором должно лежать истинное значение параметра А, называется доверительным интервалом, а его границы – доверительными границам.

Чтобы обеспечивать хорошее приближение к истинному значению параметра А, точечная оценка должна удовлетворять требованиям несмещённости, состоятельности и эффективности.

Оценка называется несмещённой, если её теоретическое среднее значение (математическое ожидание) совпадает с истинным значением оцениваемого параметра А, то есть если выполняется условие:

. (5.21)

Оценка называется состоятельной, если при неограниченном увеличении объёма выборки n, она стремится по вероятности к истинному значению оцениваемого параметра А,

, (5.22)

где δ – любое сколь угодно малое положительное число. Соотношение (5.22) следует понимать следующим образом: при неограниченном росте объёма выборки n с вероятностью равной единице (т.е. с полной достоверностью) можно утверждать, что разность между выборочной оценкой и истинным значением параметра А будет меньше любого, сколь угодно малого заданного δ.

Оценка является эффективной, если она имеет наименьшее рассеяние среди всех возможных несмещённых оценок параметра А.

Рассмотрим выборочные оценки параметров нормального распределения.

Выборочными оценками математического ожидания случайной величины х могут служить среднее арифметическое, медиана или мода.

Среднее арифметическое, определяемое по формуле

, (5.23)

где n – объём выборки;

хi – выборочные значения случайной величины,

является наилучшей оценкой математического ожидания, поскольку при любом законе распределения случайной величины х будет несмещённой и состоятельной. Если же случайная величина х имеет нормальное распределение, то эта оценка будет и эффективной, т.е. её рассеяние (если определять её по множеству выборок, взятых из одной и той же генеральной совокупности) будет меньше, чем у любой другой оценки (медианы или моды).

Использование вместо среднего арифметического значения других оценок оправдано лишь в тех случаях, когда, во-первых, не требуется высокой точности оценки, а во-вторых, обработку данных приходится проводить вручную. В этом случае медиану и моду определять проще, т.к. для этого практически не нужно проводить никаких расчётов.

Медианой называется средний отсчёт в упорядоченном по возрастанию или убыванию ряду всех выборочных значений. Следовательно, для определения медианы достаточно расположить все выборочные значения в порядке возрастания или убывания их значений и взять из них серединное, так чтобы и справа, и слева от него было одинаковое число отсчётов. Если объём выборки n является чётным, то в середине окажутся не один, а два отсчёта и, если они отличаются друг от друга, то медиану следует определять как полусумму этих двух значений.

Модой называется такое значение случайной величины, которое наиболее часто попадается в выборке.

При нормальном распределении генеральной совокупности и медиана, и мода также являются состоятельными и несмещёнными оценками математического ожидания, но не являются эффективными оценками.

Выборочными оценками степени рассеяния случайной величины х могут служить выборочная дисперсия S2 и размах R.

Выборочная дисперсия S2 определяется выражением

. (5.24)

По сравнению с предельным определением генеральной дисперсии (5.13) здесь сумма квадратов отклонений от среднего значения делится не на n, а на n–1. Это делается, чтобы получить несмещённую оценку, поскольку для получения любой усреднённой несмещённой выборочной оценки следует делить на число степеней свободы m. При определении среднеарифметического значения выборки случайной величины число степеней свободы m равняется n, так как все выборочные значения xi случайной величины считаются независимыми. Но при определении выборочной дисперсии число степеней свободы будет на единицу меньше m = n – 1, так как одна степень свободы уже использована для определения .

Выборочная дисперсия, определяемая в соответствии с (5.24), является несмещённой, состоятельной и эффективной оценкой генеральной дисперсии. Однако для её вычисления при достаточно больших объёмах выборки (n больше 10) требуются довольно громоздкие вычисления. Поэтому если нет возможности автоматизировать обработку данных, то вместо выборочной дисперсии для характеристики рассеяния случайной величины используют выборочный размах R, равный разности между максимальным и минимальным выборочными значениями

. (5.25)

Однако, даже при нормальном законе распределения х, размах не является несмещённой и состоятельной оценкой генеральной дисперсии и, тем более, не является эффективной оценкой.

Как уже было указано выше, для характеристики точности точечных оценок параметров генеральной совокупности используются интервальные или доверительные оценки. Эти оценки определяются на основе проверки статистических гипотез. Гипотеза обычно формулируется в следующем виде: соответствуют ли те или иные выборочные оценки соответствующим параметрам генеральной совокупности. В частности, доверительная оценка математического ожидания М(х) генерального распределения по выборочной средней определяется из следующих соображений. Поскольку выборка отбирается из генеральной совокупности случайным образом, то среднее арифметическое значение выборки само является случайной величиной, которое при числе выборок п, каждая из которых имеет объём также равный n) также распределена по нормальному закону. А значит, наилучшей оценкой математического ожидания этих средних является их среднее арифметическое:

, (5.26)

а наилучшей оценкой дисперсии этого распределения является величина

, (5.27)

следовательно, стандартное отклонение этого распределения равно

. (5.28)

Тогда, очевидно, что для того, чтобы найти вероятность выхода величины за определённую границу ε можно воспользоваться интегралом Лапласа для нормального распределения со стандартным отклонением

и граничным значением t = ε.

Эта вероятность Р будет равна

. (5.29)

Однако нас интересует обратная задача: необходимо найти такой интервал (равный ±ε), в котором бы с заданной вероятностью Р находилась бы разность .

Чтобы решение носило общий характер (не зависело от абсолютных значений М(х) и ) вместо абсолютной разности необходимо использовать нормированную относительно её среднеквадратического разброса . Тогда получаем формулировку нашей задачи в следующем виде

. (5.30)

Выборочная функция

была исследована У. С. Госсетом, известным английским статистиком, который все свои труды публиковал под псевдонимом Student, и поэтому её распределение известно как распределение Стьюдента или просто t-распределение. Это непрерывное распределение, вид которого близок к нормальному (рис. 5.4), но при малых m кривая распределения более полога. При m > 50 оно практически сливается с нормированным распределением.

Функция распределения Стьюдента протабулирована для широкого диапазона m (от 1 до ∞) при различных значениях доверительной вероятности P, из которых чаще всего применяются три: 0,95; 0,99; 0,999 (Табл. П.3.1 Приложения П3). Этим значениям доверительной вероятности соответствуют уровни значимости (уровни риска) : 0,05; 0,01 и 0,001. В таблицах t-распределения могут быть указаны как доверительные вероятности, так и уровни значимости.

Критерий Стьюдента (t-распределение) находит широкое применение в математической статистике при выборочной оценке параметров распределения генеральной совокупности и при проверке различных статистических гипотез, в частности, гипотезы о значимости или незначимости расхождения между двумя выборочными средними.

Таким образом, интервальная (доверительная) оценка математического ожидания генеральной совокупности по выборочному среднему состоит в нахождении доверительных границ по t-распределению в виде

, (5.31)

где t(P, m) выбирается из таблицы t-распределения для выбранного значения доверительной вероятности P (или уровня значимости α) и числа степеней свободы

m = n– 1.

Доверительная оценка среднеквадратического отклонения генеральной совокупности σ определяется следующим образом. При большом объёме выборки (n > 50) доверительную оценку σ записывают в виде предельно допустимого относительного значения разности действительного значения σ и её выборочной оценки S:

(5.32)

или

. (5.33)

где значение коэффициента q = q(P, m) находится из специальной таблицы в зависимости от выбранного значения доверительной вероятности (0,95; 0,99 или 0,999) и числа степеней свободы m = n – 1.

При малом объёме выборки (n < 50) симметричные границы вида (5.33) приводят к неоправданно большим доверительным интервалам из-за несимметричного характера распределения выборочного стандартного отклонения S. Вид этого распределения для относительного значения S/σ показан на рис. 5.5, причём, чем меньше n, тем сильнее проявляется асимметрия этого распределения.

Поэтому при малых n применяют асимметричные доверительные оценки вида

, (5.34)

где значения коэффициентов и находят по таблицам, составленным путём табулирования этих распределений из условия, чтобы площади отсекаемых верхней и нижней границами доверительного интервала частей распределения были бы одинаковыми и равными , т. е. чтобы вероятности Sz1 и Sz2 были бы равны между собой.

Учитывая асимметрию распределения отношения S/ при малых n, следует заключить, что наиболее вероятное значение S меньше σ (максимум кривой распределения сдвинут влево относительно единицы). Причём величина сдвига растёт с уменьшением m, что позволяет проводить коррекцию выборочной точечной оценки σ по S с целью устранения её смещения. Для этого определяют отношение наиболее вероятного значения к σ с помощью коэффициента С2

, (5.35)

где – среднее стандартное отклонение, полученное по k выборкам: .

Отсюда

. (5.36)

Коэффициенты С2 вычислены по распределениям S/ и табулированы в зависимости от m.

Если вместо среднего по нескольким выборкам стандартного отклонения использовать стандартное отклонение, определяемая по одной выборке S, то точность оценки будет хуже, а величину коэффициента следует умножить на :

. (5.37)

Приближённую точечную оценку σ можно провести и по размаху R. Учитывая, что рассеяние размаха гораздо больше, чем S, желательно использовать средний размах, полученный по нескольким выборкам . Тогда учитывая, что математическое ожидание отношения среднего размаха по k выборкам к σ при k стремится к постоянной величине d2, получаем

, (5.38)

где d2 определяется по таблицам в зависимости от n.