
2.4. Выборочные числовые характеристики распределения
Кроме эмпирической
функции распределения, для описания
данных используют её числовые
характеристики. Числовые характеристики
случайной величины X*
называются выборочными числовыми
характеристиками. Случайная величина
X* аппроксимирует
изучаемую случайную величину Х в
силу того, что
(x)
по вероятности стремится к
при
.
При этом следует ожидать, что и выборочные
числовые характеристики будут
аппроксимировать соответствующие
генеральные характеристики, т.е. являться
их оценками. Такой метод образования
оценок генеральных числовых характеристик
называется методом аналогии
(или подстановки). Вместо числовых
характеристик Х рассматриваются
аналогичные числовые характеристики
X*. Это означает
также, что во все формулы для генеральных
числовых характеристик вместо Х
подставляется случайная величина X*,
её аппроксимирующая.
Определение 2.10. Выборочной оценкой генеральной числовой характеристики называется её приближённое значение, найденное по выборке.
В качестве выборочных средних величин постоянно используют выборочное среднее арифметическое, т.е. сумму значений рассматриваемой величины, полученных по результатам испытания выборки, деленную на ее объем:
где n – объем выборки, xi – результат измерения (испытания) i-ого элемента выборки.
Другой вид выборочного среднего – выборочная медиана. Она определяется через порядковые статистики. Порядковые статистики – это члены вариационного ряда, который получается, если элементы выборки x1, x2,…, xn расположить в порядке неубывания:
х(1)<x(2)<…<x(k)<…<x(n).
Пример 1. Для выборки x1 = 1, x2 = 7, x3 = 4, x4 = 2, x5 = 8, x6 = 0, x7 =5, x8 = 7 вариационный ряд имеет вид 0, 1, 2, 4, 5, 7, 7, 8, т.е. х(1) = 0 = x6, х(2) = 1 = x1, х(3) = 2 = x4, х(4) = 4 = x3, х(5) = 5 = x7, х(6) = х(7) = 7 = x2 = x8, х(8) = 8 = x5.
В вариационном
ряду элемент x(k) называется k-той
порядковой статистикой. Порядковые
статистики и функции от них широко
используются в вероятностно-статистических
методах принятия решений, в эконометрике
и в других прикладных областях [2].
Выборочная медиана
-
результат наблюдения, занимающий
центральное место в вариационном ряду,
построенном по выборке с нечетным числом
элементов, или полусумма двух результатов
наблюдений, занимающих два центральных
места в вариационном ряду, построенном
по выборке с четным числом элементов.
Таким образом, если объем выборки n
– нечетное число, n = 2k+1, то медиана
=
x(k+1), если же n – четное число,
n = 2k, то медиана
=
[x(k) + x(k+1)]/2, где x(k) и
x(k+1) – порядковые статистики. В
качестве выборочных показателей
рассеивания результатов наблюдений
чаще всего используют выборочную
дисперсию, выборочное среднее
квадратическое отклонение и размах
выборки. Согласно [8] выборочная дисперсия
s2 – это сумма квадратов
отклонений выборочных результатов
наблюдений от их среднего арифметического,
деленная на объем выборки:
Выборочное среднее
квадратическое отклонение s –
неотрицательный квадратный корень из
дисперсии, т.е.
В
некоторых литературных источниках
выборочной дисперсией называют другую
величину:
Она отличается от s2 постоянным множителем:
Соответственно
выборочным средним квадратическим
отклонением в этих литературных
источниках называют величину
Тогда,
очевидно,
Различие в
определениях приводит к различию в
алгоритмах расчетов, правилах принятия
решений и соответствующих таблицах.
Поэтому при использовании тех или иных
нормативно-технических и
инструктивно-методических материалов,
программных продуктов, таблиц необходимо
обращать внимание на способ определения
выборочных характеристик. Выбор
,
а не s2, объясняется тем,
что
где Х – случайная величина, имеющая такое же распределение, как и результаты наблюдений. В терминах теории статистического оценивания это означает, что - несмещенная оценка дисперсии (см. ниже). В то же время статистика s2 не является несмещенной оценкой дисперсии результатов наблюдений, поскольку
Однако у s2 есть другое свойство, оправдывающее использование этой статистики в качестве выборочного показателя рассеивания. Для известных результатов наблюдений x1, x2,…, xn рассмотрим случайную величину У с распределением вероятностей
и Р(Y = х) = 0 для всех прочих х. Это распределение вероятностей называется эмпирическим. Тогда функция распределения Y – это эмпирическая функция распределения, построенная по результатам наблюдений x1, x2,…, xn. Вычислим математическое ожидание и дисперсию случайной величины Y:
Второе из этих равенств и является основанием для использования s2 в качестве выборочного показателя рассеивания.
Отметим, что математические ожидания выборочных средних квадратических отклонений М(s) и М(s0), вообще говоря, не равняются теоретическому среднему квадратическому отклонению σ. Например, если Х имеет нормальное распределение, объем выборки n = 3, то
Кроме перечисленных выше статистических характеристик, в качестве выборочного показателя рассеивания используют размах R – разность между n-й и первой порядковыми статистиками в выборке объема n, т.е. разность между наибольшим и наименьшим значениями в выборке: R = x(n) – x(1). В ряде вероятностно-статистических методов применяют и иные показатели рассеивания. В частности, в методах статистического регулирования процессов используют средний размах – среднее арифметическое размахов, полученных в определенном количестве выборок одинакового объема. Популярно и межквартильное расстояние, т.е. расстояние между выборочными квартилями x([0,75n]) и x([0,25n]) порядка 0,75 и 0,25 соответственно, где [0,75n] – целая часть числа 0,75n, а [0,25n] –целая часть числа 0,25n.
*0,3
* *
-4 * * 4
Оценка числовых характеристик случайных величин по ограниченному
числу опытов
На практике часто бывает либо заранее известен закон распределения и требуется найти лишь параметры его, либо знание его несущественно, а нужно знать только его некоторые характеристики, когда по ограниченному объёму выборки необходимо производить такие оценки. Как правило, это относится к первым двум моментам. Постановка задачи следующая.
Предположим, что
независимые опыты ещё не произведены,
их результаты неизвестны, случайны.
Обозначим Xi
значение, которое примет случайная
величина Х в i-м опыте, а результаты опыта
– n независимых случайных величин:
Будем рассматривать их как n
«экземпляров» случайной величины Х,
каждый из которых имеет тот же закон
распределения, что и сама величина Х.
Если мы определяем некоторый параметр
a по результатам опыта, то его приближённое
значение называют оценкой. Любая
оценка, вычисляемая на основе
экспериментальных данных, является
функцией этих случайных величин и значит
тоже случайная величина
Например, для МО, как было показано
выше, естественной оценкой является
среднее арифметическое её наблюдённых
значений:
(2.12)
Итак, любая оценка
параметра
является
случайной величиной её закон распределения
зависит от закона распределения Х и от
вида функции
,
выражающей
через
,
а значит и от числа опытов n. К оценке
предъявляются требования обладания
рядом свойств:
Состоятельность
– оценка приближается при увеличении
числа опытов (сходится по вероятности)
к искомому параметру
Несмещённость
– отсутствие систематической ошибки
Эффективность
– наличие минимальной дисперсии
по сравнению с другими
На
практике не всегда удаётся удовлетворить
всем этим требованиям.
Определим
и
дисперсию
Выше
указывалось, что для
среднее арифметическое (или статистическое
среднее):
(2.13)
Состоятельность этой оценки следует из закона больших чисел, согласно которому при увеличении числа опытов она сходится по вероятности к МО случайной величины Х.
Несмещённость можно показать, найдя её математическое ожидание:
,
(2.14)
т.е.оценка
для
является
несмещённой.
Найдём дисперсию этой оценки:
.
(2.15)
Эффективность
оценки зависит от вида закона распределения
Х, можно показать, что для нормально
распределённой величины оценка для
математического ожидания является и
эффективной. Для дисперсии, на первый
взгляд, наиболее естественной является
статистическая дисперсия
,
т.е. среднее арифметическое квадратов
отклонений значений
от среднего:
(2.16)
Для проверки её состоятельности выразим её через статистический второй начальный момент, т.е. через среднее арифметическое квадратов наблюдённых значений:
(2.18)
Первый член в
правой части – среднее арифметическое
наблюдений случайной величины
сходится по вероятности к её МО:
Второй
член сходится по вероятности к
,
вся величина по вероятности сходится
к
Значит
оценка состоятельна.
Для проверки её несмещённости выполним следующее:
(2.19)
Так как статистическая дисперсия не зависит от того, где выбрать начало координат, выберем его в точке , т.е. отцентрируем все случайные величины Тогда
(2.20)
Найдём МО величины
(2.21)
Но
и эта формула даёт:
(2.22)
Отсюда видно, что
величина
не
является несмещённой оценкой для
дисперсии
,
её МО не равно
,
а несколько меньше. Чтобы ликвидировать
систематическую ошибку, достаточно
ввести поправку, умножив
на
Тогда для несмещённой оценки для дисперсии получим:
равную
статистической дисперсии, умноженной
на соответствующий коэффициент. При
больших значениях
этот
множитель становится близким к единице
и его можно не применять.
Окончательно, для приближённых оценок имеем:
(2.23)
Вместо последнего выражения часто удобно использовать:
(2.24)
Можно показать,
что такой же поправочный множитель
нужно вводить и при вычислении несмещённой
оценки для ковариации двух случайных
величин
и