
Занятие 15-16.
ПЕРВИЧНАЯ ОБРАБОТКА ВЫБОРКИ И ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ
Основные определения и формулы
Под генеральной совокупностью с функцией распределения Fξ(x) будем понимать гипотетическую совокупность всех возможных значений случайной величины ξ. Вместо функции распределения Fξ(x) может использоваться плотность распределения fξ(x), либо закон распределения ξ, заданный в виде таблицы.
Набор n значений случайной величины, полученных в результате эксперимента, называется выборкой объема n из генеральной совокупности, а числа х1, х2, ..., хn – выборочными значениями случайной величины ξ.
Выборке {х1, х2, ..., хn} поставим в соответствие случайную величину, принимающую эти значения с вероятностями 1/n:
и будем называть ее выборочным распределением.
Первичная обработка выборки включает следующие операции:
упорядочение по возрастанию х1 < х2 < ... < хn, приводит исходные данные к выборке, которая называется вариационным рядом;
вычисление частоты ni элемента zi в том случае, когда z1, …, zk представляют разные (не равные между собой) числа в исходной выборке {х1, х2, ..., хn} так, что ni равно числу повторяющихся элементов, соответствующих zi (i = 1, …, k); полученная таким образом новая выборка {zi, ni} называется статистическим рядом;
вычисление относительной частоты νi = ni/n и последовательных сумм ν1+ ν2 + …+ νi, которые представляют накопленные частоты элемента zi.
Для получения статистического ряда {zi, ni} может использоваться и более общий механизм, когда zi представляет не просто равные элементы, а близкие в определенном смысле. Например, это могут быть элементы, попадающие в i-й полуинтервал вида [xi, xi+1).
Если функция распределения зависит то некоторого параметра θ, то есть Fξ(x) = Fξ(x, θ), то можно рассмотреть задачу оценивания этого параметра по n значениям выборочных данных {х1, х2, ..., хn}. Функцию θn от этих значений будем называть оценкой параметра θ.
Если в качестве оценок используются выборочные характеристики случайной величины, оценки называются точечными. Такими оценками являются:
выборочное среднее
,
для нахождения которого в Excel используется функция СРЗНАЧ (x1;x2;…,xn);
выборочная дисперсия
для нахождения которой в Excel используется функция ДИСП (x1; x2; …, xn).
Если для параметра θ можно указать некоторый интервал (θ1, θ2), для которого
p (θ1 < θ < θ2) = 1 – α,
где α – малое число, называемое уровнем значимости, то говорят об интервальных оценках. Интервал (θ1, θ2) называется доверительным интервалом для параметра θ с доверительной вероятностью 1 – α. В рассматриваемых упражнениях будем строить симметричные интервалы вида (θ1, θ2) = (θn - Δ, θn + Δ) для точечной оценки θn параметра θ.
При известной дисперсии σ2 нормальной генеральной совокупности значение Δ для математического ожидания задается формулой
,
где z1-α/2 вычисляется c помощью функции Excel НОРМСТОБР(вероятность).
Пример 1
В ходе исследования рецидивной преступности из документов были собраны данные о числе повторных судимостей двадцати случайно отобранных человек, имевших в прошлом одну или более судимостей. Число повторных судимостей приведено в таблице:
1 |
1 |
1 |
2 |
3 |
1 |
1 |
1 |
1 |
2 |
2 |
2 |
1 |
1 |
1 |
1 |
1 |
2 |
2 |
1 |
Задача:
Провести первичную обработку рассматриваемых данных, построить график накопленных относительных частот и найти доверительный интервал с уровнем значимости α = 0,05
Методические указания для выполнения работы
1) В ячейку [B2] введем Выборка. Укажем в массиве ячеек [B3:B22] выборку (n = 20): 1, 1, 1, 2, 3, 1, 1, 1, 1, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 1.
2) Для формирования вариационного ряда (упорядочения) необходимо в ячейку [С2] ввести Вариационный ряд, затем скопировать содержимое ячеек [В3:B22] в диапазон [С3:С22] и сортировать по возрастанию.
Выделить диапазон [С3:С22] Данные Сортировка по возрастанию Сортировать в пределах указанного диапазона
3) В ячейку [B24] введем Размах (разность между наибольшим и наименьшим значением выборки). В ячейке [С24]:= [С22]- [С3].
4) В ячейку [B25] введем Объем выборки (набор n значений случайной величины). В ячейке [С25]:=СЧЕТ(С3:С22).
5) В ячейке [D2] введем Интервалы. Укажем в массиве ячеек [D3:D5] значения интервалов по разным значениям вариационного ряда: 1, 2, 3, которые обозначают число повторных судимостей.
6) Для нахождения частоты повторений значений (количества человек с повторными судимостями) в пределах интервалов необходимо в ячейке [Е2] ввести Частота.
Выделить диапазон [E3:E5] Вставка функции Статистические ЧАСТОТА Массив_данных: С3:С22, Массив_интервалов: D3:D5 нажать <CtrlShiftEnter>, появятся {} ОК
7) В ячейку [F2] введем Относительная частота. Для нахождения относительной частоты необходимо соответствующее значение частоты разделить на общее число значений выборки n.
В ячейку [F3] введем формулу: = E3/$C$25 ОК. Скопируем эту формулу в ячейки [F4] и [F5]. В итоге получим значения {0.7, 0.3, 0.1}.
8) Найдем накопленную относительную частоту путем поочередного сложения значений относительной частоты, начиная со второго. В ячейку [G2] введем Накопленная относительная частота.
Ячейка [G3] по определению равна ячейке [F3]. Далее в ячейку [G4] введем формулу: =G3+F4 ОК. Скопируем эту формулу в ячейку [G5]. Получим значения {0,7, 1, 1}.
9) Построим график накопленной относительной частоты.
Вставка Диаграмма График Диапазон [G3:G5]
10) В ячейке [H2] введем mи вычислим выборочное среднее.
В ячейке [H3] введем формулу Вставка функции Статистические СРЗНАЧ m: C3:C22 получим значение 1,4.
11) В ячейке [I2] введем S2 и вычислим дисперсию.
В ячейке [I3] введем формулу Вставка функции Статистические ДИСП x1: C3:C22 получим значение 0,36.
12) Введем обозначения: в [B27] введем , в [B28] введем 1-α/2, в [B29] введем Z1-α/2, в [B30] введем Δ.
Принятое значение уровня значимости , равное 0,05, введем в ячейку [С27].
В [C28] вычислим 1-α/2: =1-C27/2 получим 0,975.
В [C29] вычислим значение Z1-α/2: Вставка функции Статистические НОРМСТОБР Вероятность: C28 получим 1,960.
В ячейке [C30] вычислим значение Δ: =C29*(I3/C25)^(1/2) получим 0,262.
13) В ячейку [B31] введем Доверительный интервал.
Вычислим (m- Δ; m+ Δ) в ячейках [C31] и [D31] соответственно получим значения (1,138; 1,662).
Задания для самостоятельной работы
Провести первичную обработку данных, вычислить точечные оценки среднего x и дисперсии S2, найти доверительный интервал (x - Δ; x + Δ) для среднего значенияx, считая xi ~ N (m, σ) для элементов xi, i = 1, 2, …, n выборки {х1, х2, ..., хn}, используя полученное S2 в качестве известного значения σ2. Данные для обработки приводятся в следующих вариантах.
Вариант 1.
По документам n = 30 рецидивистов собраны сведения о времени между окончанием меры наказания за первое преступление и привлечением к наказанию за второе преступление. Данные приведены в таблице
3 |
1 |
2 |
1 |
4 |
2 |
2 |
1 |
1 |
3 |
3 |
5 |
5 |
4 |
2 |
2 |
5 |
5 |
3 |
3 |
1 |
5 |
4 |
2 |
3 |
0,5 |
2 |
0,5 |
0,5 |
5 |
Ответ: (x – Δ;x + Δ) = (2,12; 3,23)