- •Работа №1. Предельные теоремы
- •Теорема Бернулли
- •Выполнение в пакете Statistica
- •Закон больших чисел в форме Чебышева
- •Сжатие распределения с ростом числа слагаемых
- •Теорема Гливенко основная теорема статистики
- •Центральная предельная теорема
- •Работа № 2. Выборки и их представление
- •Работа № 3. Оценки
- •Выполнение в пакете statistica
Работа № 2. Выборки и их представление
Основные понятия
Напомним, что такое выборка, вариационный ряд, эмпирическое распределение, группирование, гистограмма, выборочные характеристики и др.
Выборкой х1, ..., хn объема n из совокупности, распределенной по F(х), называется n независимых наблюдений над случайной величиной с функцией распределения F(x).
Вариационным рядом х(1) х(2) ... х(n) называется выборка, записанная в порядке возрастания ее элементов.
Каждому наблюдению из выборки присвоим вероятность, равную 1/n; получим распределение, которое называют эмпирическим; ему соответствует функция эмпирического распределения
= ,
где n(х) - число членов выборки, меньших х. Значение этой функции для статистики определяется тем, что при n
F(x) (теорема Гливенко).
Выборки больших объемов труднообозримы; разобъем диапазон значений выборки на равные интервалы и подсчитаем для каждого интервала частоту- количество наблюдений, попавших в него; частоты, отнесенные к общему числу наблюдений n, называют относительными частотами; графическое представление распределения частот по интервалам гистограммой; накопленной частотой для данного интервала называют сумму частот данного интервала и всех тех, что левее его.
Числовые характеристики эмпирического распределения называются выборочными характеристиками: выборочные среднее (математическое ожидание), дисперсия:
=, s2=
выборочный момент порядка к:
mk = ;
выборочные квантили p порядка р - корни уравнения
F(p)=p,
которыми являются члены вариационного ряда
(p)=([np]+1),
где [nр] означает целую часть nр; частным случаем (p = 0.5) является выборочная медиана - центральный член вариационного ряда. Значение выборочных характеристик состоит в том, что при n они стремятся к истинным значениям распределения F(х).
Приведем с помощью пакетов примеры. Исходные данные находятся в табл.1 ( E(a) в таблице означает показательное (экспоненциальное) распределение с математическим ожиданием, равным a).
таблица1
¹ |
Закон |
n |
|
¹ |
Закон |
n |
|
1 |
R [0, 2] |
50 |
0.03 |
14 |
N (1,4) |
60 |
0.01 |
2 |
N(2, 0.25) |
60 |
0.02 |
15 |
E (5) |
70 |
0.03 |
3 |
E (3) |
70 |
0.01 |
16 |
R [0.3] |
80 |
0.1 |
4 |
R [1, 3] |
80 |
0.02 |
17 |
N (1,4) |
50 |
0.3 |
5 |
N (1, 1) |
50 |
0.01 |
18 |
E (1) |
60 |
0.2 |
6 |
E (2) |
60 |
0.03 |
19 |
R [1,3] |
70 |
0.03 |
7 |
R [2, 3] |
70 |
0.01 |
20 |
N (1,1) |
80 |
0.02 |
8 |
N (0, 4) |
80 |
0.03 |
21 |
E (2) |
50 |
0.01 |
9 |
E (3) |
50 |
0.02 |
22 |
R [2,3] |
60 |
0.02 |
10 |
R [0, 2] |
60 |
0.03 |
23 |
N (2,1) |
70 |
0.01 |
11 |
N [2, 1] |
70 |
0.02 |
24 |
E (3) |
80 |
0.03 |
12 |
E (4) |
80 |
0.01 |
25 |
R [1,2] |
50 |
0.01 |
13 |
R [1, 2] |
50 |
0.02 |
|
|
|
|
Выполнение в пакете STATISTICA
Описание одномерной выборки
Шаг 1. Генерация выборки
Сгенерируем, например, выборку объема n =50 с показательным распределением со средним значением 5.
Создадим новую таблицу 150 (смотри выше).
Сгенерируем выборку:
Дважды кликните по имени переменной в таблице - в появившемся окне Variable 1 введем Name x ( например ) , в нижнем поле Long name вводится выражение, определяющее переменную. Ввод можно сделать набором на клавиатуре или с помощью клавиши Functions, выбирая в меню требуемую функцию. Для задания закона распределения следует ввести, например,
=rnd(2) для R[0, 2],
=Vnormal(rnd(1); 2; 0.5 ) для N(2, 2=0.52),
=VExpon(rnd(1); 0.2 ) для E(5) со средним 1/0.2=5; (для нашего примера вместо значения параметра =0.2 можно набрать выражение 1/5).
Такая форма задания определяется способом генерации: с помощью функции, обратной (буква V) к функции распределения и генератора случайных чисел R[0, 1] ( rnd(1)).
Посмотрим выборку графически:
Graphs - 2D Graphs – Line plots (variables), в открывшемся окне выбираем переменную - .OK. Наблюдаемый график.
Шаг 2. Построение вариационного ряда
Войдем в модуль Data - Sort - устанавливаем имя переменной, тип сортировки: Ascending (по возрастанию ) или Descending ( по убыванию) - OK. Выделим требуемую переменную (столбец) - нажмем правую клавишу мыши – в появившемся окне выбираем Statistics of block data- Block columns- All. Наблюдаем значения статистик и переписываем их в тетрадь.
Шаг 3. Построение функции эмпирического распределения
Graphs - 2D Graphs - Histogram - в появившемся окне установим: на закладке Advanced выбираем переменную и устанавливаем Graph Type : Regular, Shoving type Cumulative (накопленные частоты), Fit Type (подбираемый тип) : Exponential (для нашего примера) на закладке Quick устанавливаем Categories (число интервалов группирования) : 250 - OK.
Наблюдаем график функции эмпирического распределения (рис. 4). График можно отредактировать: изменить линии, точки, фон, шкалы, надписи; для этого необходимо подвести стрелку в нужное место и дважды щелкнуть левой клавишей мыши.
Рис.4. Функция эмпирического распределения
Второй способ:
Образуем новую переменную F для значений функции:
клавиша Var - Add - ...( см. выше) – в новом окне Add Variables установим.. - Name: F - Long name: = V0/50
(оператор V0 создает массив целых чисел); построим график:
Graphs - 2D Graph - Line plots (variables)- в новом окне установим Advanced – Graph types: X-Y Traces, Variables- X: x, Y: F, - OK.
Наблюдаем функцию эмпирического распределения.
Шаг 3. Группирование данных
Statistics – Basic statistics and tables – Descriptive statistics- Variables- … - Normality- Number of intervals: 10 – Frequency tables. Наблюдаем таблицу группированных данных и переписываем ее в тетрадь.
Шаг 4. Построение гистограммы частот
Работаем в том же окне - Histograms - в появившемся окне наблюдаем гистограмму.
Шаг 5. Выборочные характеристики
Переходим на закладку – Advanced, выбираем необходимые характеристики mean (среднее), Confid 95% ( доверительные границы нижняя и верхняя с уровнем доверия 0.95 ), Sum ( сумма ), Minimum, Maximum, Range ( размах ), Variance ( дисперсия ), Std. Dev. ( стандартное отклонение ) и др. и нажимаем - Summary: - Descriptive statistics - получаем таблицу с характеристиками, переписываем их в тетрадь. Сравним выборочное среднее, медиану и стандартное отклонение с соответствующими теоретическими значениями.
Описание двумерных выборок
Шаг 1. Ввод данных: зададим новую таблицу 232, назовем столбцы X и Y. Заполним таблицу используя законы распределения
Шаг 2. Диаграмма рассеяния: Graphs - 2D Graphs... -Scatterplots... - вводим значения по осям X и Y (нажав на кнопку Variables и выбрав переменные ) - OK.
Шаг 3. Выборочные характеристики.
Определяются так же как и для одномерной.
Шаг 4 Определим корреляционную матрицу:
Statistics – Basic statistics and tables - Correlation matrices - Two lists (rect. matrix)- First variable list: All - Second variable list: All - OK . Перепишем корреляционную матрицу. Если в матрице имеются значения помеченные красным цветом это говорит о том, что между переменными имеется зависимость. Знак «+» говорит о том что между переменными прямая зависимость. т.е., с увеличением одной переменной другая тоже увеличивается, а знак «-» свидетельствует об обратной связи.
Шаг 5 Графическое представление корреляции
В окне Product- Moment and Partial Correlations выберите две переменные для которых строим корреляцию. На закладке Advanced/Plot нажмите 2D Scatterplots. Чем ближе точки ложатся на прямую тем выше корреляция. Штриховой линией указывается 95% доверительный интервал.
Рис 5. Парная корреляция переменных.