Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция2.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
534.02 Кб
Скачать

2.4. Выборочные числовые характеристики распределения

Кроме эмпирической функции распределения, для описания данных используют её числовые характеристики. Числовые характеристики случайной величины X* называются выборочными числовыми характеристиками. Случайная величина X* аппроксимирует изучаемую случайную величину Х в силу того, что (x) по вероятности стремится к при . При этом следует ожидать, что и выборочные числовые характеристики будут аппроксимировать соответствующие генеральные характеристики, т.е. являться их оценками. Такой метод образования оценок генеральных числовых характеристик называется методом аналогии (или подстановки). Вместо числовых характеристик Х рассматриваются аналогичные числовые характеристики X*. Это означает также, что во все формулы для генеральных числовых характеристик вместо Х подставляется случайная величина X*, её аппроксимирующая.

Определение 2.10. Выборочной оценкой генеральной числовой характеристики называется её приближённое значение, найденное по выборке.

В качестве выборочных средних величин постоянно используют выборочное среднее арифметическое, т.е. сумму значений рассматриваемой величины, полученных по результатам испытания выборки, деленную на ее объем:

где n – объем выборки, xi – результат измерения (испытания) i-ого элемента выборки.

Другой вид выборочного среднего – выборочная медиана. Она определяется через порядковые статистики. Порядковые статистики – это члены вариационного ряда, который получается, если элементы выборки x1, x2,…, xn расположить в порядке неубывания:

х(1)<x(2)<<x(k)<<x(n).

Пример 1. Для выборки x1 = 1, x2 = 7, x3 = 4, x4 = 2, x5  = 8, x6 = 0, x7 =5, x8 = 7 вариационный ряд имеет вид 0, 1, 2, 4, 5, 7, 7, 8, т.е. х(1) = 0 = x6, х(2) = 1 = x1, х(3) = 2 = x4, х(4) = 4 = x3, х(5) = 5 = x7, х(6) = х(7) = 7 = x2 = x8, х(8) = 8 = x5.

В вариационном ряду элемент x(k) называется k-той порядковой статистикой. Порядковые статистики и функции от них широко используются в вероятностно-статистических методах принятия решений, в эконометрике и в других прикладных областях [2]. Выборочная медиана  - результат наблюдения, занимающий центральное место в вариационном ряду, построенном по выборке с нечетным числом элементов, или полусумма двух результатов наблюдений, занимающих два центральных места в вариационном ряду, построенном по выборке с четным числом элементов. Таким образом, если объем выборки n – нечетное число, n = 2k+1, то медиана  = x(k+1), если же n – четное число, n = 2k, то медиана  = [x(k) + x(k+1)]/2, где x(k) и x(k+1) – порядковые статистики. В качестве выборочных показателей рассеивания результатов наблюдений чаще всего используют выборочную дисперсию, выборочное среднее квадратическое отклонение и размах выборки. Согласно [8] выборочная дисперсия s2 – это сумма квадратов отклонений выборочных результатов наблюдений от их среднего арифметического, деленная на объем выборки: 

Выборочное среднее квадратическое отклонение s – неотрицательный квадратный корень из дисперсии, т.е. В некоторых литературных источниках выборочной дисперсией называют другую величину:

Она отличается от s2 постоянным множителем:

Соответственно выборочным средним квадратическим отклонением в этих литературных источниках называют величину  Тогда, очевидно,

Различие в определениях приводит к различию в алгоритмах расчетов, правилах принятия решений и соответствующих таблицах. Поэтому при использовании тех или иных нормативно-технических и инструктивно-методических материалов, программных продуктов, таблиц необходимо обращать внимание на способ определения выборочных характеристик. Выбор , а не s2, объясняется тем, что

где Х – случайная величина, имеющая такое же распределение, как и результаты наблюдений. В терминах теории статистического оценивания это означает, что  - несмещенная оценка дисперсии (см. ниже). В то же время статистика s2 не является несмещенной оценкой дисперсии результатов наблюдений, поскольку

Однако у s2 есть другое свойство, оправдывающее использование этой статистики в качестве выборочного показателя рассеивания. Для известных результатов наблюдений x1, x2,…, xn рассмотрим случайную величину У с распределением вероятностей

и Р(Y = х) = 0 для всех прочих х. Это распределение вероятностей называется эмпирическим. Тогда функция распределения Y – это эмпирическая функция распределения, построенная по результатам наблюдений x1, x2,…, xn. Вычислим математическое ожидание и дисперсию случайной величины Y:

Второе из этих равенств и является основанием для использования s2 в качестве выборочного показателя рассеивания.

Отметим, что математические ожидания выборочных средних квадратических отклонений М(s) и М(s0), вообще говоря, не равняются теоретическому среднему квадратическому отклонению σ. Например, если Х имеет нормальное распределение, объем выборки n = 3, то

Кроме перечисленных выше статистических характеристик, в качестве выборочного показателя рассеивания используют размах R – разность между n-й и первой порядковыми статистиками в выборке объема n, т.е. разность между наибольшим и наименьшим значениями в выборке: R = x(n) – x(1). В ряде вероятностно-статистических методов применяют и иные показатели рассеивания. В частности, в методах статистического регулирования процессов используют средний размах – среднее арифметическое размахов, полученных в определенном количестве выборок одинакового объема. Популярно и межквартильное расстояние, т.е. расстояние между выборочными квартилями x([0,75n]) и x([0,25n]) порядка 0,75 и 0,25 соответственно, где [0,75n] – целая часть числа 0,75n, а [0,25n] –целая часть числа 0,25n.

*0,3

* *

-4 * * 4

Оценка числовых характеристик случайных величин по ограниченному

числу опытов

На практике часто бывает либо заранее известен закон распределения и требуется найти лишь параметры его, либо знание его несущественно, а нужно знать только его некоторые характеристики, когда по ограниченному объёму выборки необходимо производить такие оценки. Как правило, это относится к первым двум моментам. Постановка задачи следующая.

Предположим, что независимые опыты ещё не произведены, их результаты неизвестны, случайны. Обозначим Xi значение, которое примет случайная величина Х в i-м опыте, а результаты опыта – n независимых случайных величин: Будем рассматривать их как n «экземпляров» случайной величины Х, каждый из которых имеет тот же закон распределения, что и сама величина Х. Если мы определяем некоторый параметр a по результатам опыта, то его приближённое значение называют оценкой. Любая оценка, вычисляемая на основе экспериментальных данных, является функцией этих случайных величин и значит тоже случайная величина Например, для МО, как было показано выше, естественной оценкой является среднее арифметическое её наблюдённых значений:

(2.12)

Итак, любая оценка параметра является случайной величиной её закон распределения зависит от закона распределения Х и от вида функции , выражающей через , а значит и от числа опытов n. К оценке предъявляются требования обладания рядом свойств:

Состоятельность – оценка приближается при увеличении числа опытов (сходится по вероятности) к искомому параметру

Несмещённость – отсутствие систематической ошибки

Эффективность – наличие минимальной дисперсии по сравнению с другими На практике не всегда удаётся удовлетворить всем этим требованиям.

Определим и дисперсию Выше указывалось, что для среднее арифметическое (или статистическое среднее):

(2.13)

Состоятельность этой оценки следует из закона больших чисел, согласно которому при увеличении числа опытов она сходится по вероятности к МО случайной величины Х.

Несмещённость можно показать, найдя её математическое ожидание:

, (2.14)

т.е.оценка для является несмещённой.

Найдём дисперсию этой оценки:

. (2.15)

Эффективность оценки зависит от вида закона распределения Х, можно показать, что для нормально распределённой величины оценка для математического ожидания является и эффективной. Для дисперсии, на первый взгляд, наиболее естественной является статистическая дисперсия , т.е. среднее арифметическое квадратов отклонений значений от среднего:

(2.16)

Для проверки её состоятельности выразим её через статистический второй начальный момент, т.е. через среднее арифметическое квадратов наблюдённых значений:

(2.18)

Первый член в правой части – среднее арифметическое наблюдений случайной величины сходится по вероятности к её МО: Второй член сходится по вероятности к , вся величина по вероятности сходится к Значит оценка состоятельна.

Для проверки её несмещённости выполним следующее:

(2.19)

Так как статистическая дисперсия не зависит от того, где выбрать начало координат, выберем его в точке , т.е. отцентрируем все случайные величины Тогда

(2.20)

Найдём МО величины

(2.21)

Но и эта формула даёт:

(2.22)

Отсюда видно, что величина не является несмещённой оценкой для дисперсии , её МО не равно , а несколько меньше. Чтобы ликвидировать систематическую ошибку, достаточно ввести поправку, умножив на

Тогда для несмещённой оценки для дисперсии получим:

равную статистической дисперсии, умноженной на соответствующий коэффициент. При больших значениях этот множитель становится близким к единице и его можно не применять.

Окончательно, для приближённых оценок имеем:

(2.23)

Вместо последнего выражения часто удобно использовать:

(2.24)

Можно показать, что такой же поправочный множитель нужно вводить и при вычислении несмещённой оценки для ковариации двух случайных величин и