Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КУРСАЧ ЕМАНА ПО ТВИМСУ.doc
Скачиваний:
13
Добавлен:
17.04.2019
Размер:
1.01 Mб
Скачать

Вариант 65

Y; X

-30,03; -50

-34,95; -49

-34,82; -48

-33,94; -47

-29,41; -46

-23,86; -45

-25,75; -44

-31,63; -43

-25,63; -42

-27,83; -41

-23,46; -40

-26,94; -39

-22,85; -38

-22,81; -37

-27,11; -36

-21,23; -35

-26,58; -34

-19,27; -33

-18,52; -32

-21,09; -31

-17,51; -30

-15,32; -29

-15,95; -28

-16,60; -27

-14,80; -26

-15,67; -25

-16,88; -24

-17,86; -23

-12,65; -22

-14,12; -21

-15,46; -20

-18,03; -19

-12,07; -18

-8,70; -17

-9,37; -16

-13,99; -15

-18,45; -14

-11,72; -13

-7,04; -12

-6,21; -11

-4,73; -10

-3,60; -9

-6,89; -8

-2,60; -7

-2,60; -6

-4,70; -5

-2,44; -4

0,67; -3

3,86; -2

5,57; -1

4,89; 0

4,51; 1

2,57; 2

-2,26; 3

-0,02; 4

1,81; 5

2,68; 6

4,60; 7

10,95; 8

6,57; 9

4,90; 10

8,16; 11

11,40; 12

17,87; 13

11,17; 14

11,19; 15

10,91; 16

11,78; 17

15,43; 18

18,41; 19

19,37; 20

17,37; 21

15,35; 22

16,03; 23

16,55; 24

18,14; 25

20,79; 26

18,82; 27

18,33; 28

15,98; 29

20,54; 30

21,14; 31

17,02; 32

23,01; 33

23,96; 34

21,59; 35

21,37; 36

19,37; 37

25,70; 38

24,05; 39

24,91; 40

34,15; 41

25,82; 42

30,55; 43

27,08; 44

30,65; 45

33,24; 46

28,71; 47

33,71; 48

33,46; 49

34,00; 50

Теория

Генеральная совокупность и выборка. Объем выборки. Частота и частость. Накопленная частота и накопленная частость.

Генеральная совокупность – совокупность элементов, удовлетворяющих неким заданным условиям; именуется также изучаемой совокупностью. Генеральная совокупность (Universe) - все множество объектов (субъектов) исследования, из которого выбираются объекты (субъекты) для обследования (опроса).

Выборка (Sample) — это множество объектов (субъектов), отобранных специальным образом  для обследования (опроса). Любые данные, полученные на основании выборочного обследования (опроса), имеют вероятностный характер. На практике это означает, что в ходе исследования определяется не конкретное значение, а интервал, в котором определяемое значение находится. 

Объем выборки - количество единиц, отбираемых аудитором из проверяемой совокупности. Формула для оценки размера выборки одной единственной частоты:

n=15.4*p*(1-p)/W2

Формула для расчета размера выборки при сравнении двух частот следующая:

n=[A+B]2*[(p1*(1-p1)+(p2*(1-p2)))]/[p1-p2]2

Формула для расчета размера выборки при сравнении двух средних следующая:

n=[A+B]2*2*SD2/DIFF2

Частоты — это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

Частости ( ) — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Накопленная частота – число единиц совокупности, у которых значение признака не превышает данного x* , т. е. это частота

нарастающим итогом:

m∗

N x ∗ = ∑ ni , N xm = N .

i =1

x* - данное значение признака в - ой группе, для которой

рассчитывается накопленная частота.

Накопленная частость – удельный вес (доля) единиц, у Формат: Список

которых значение признака не превосходит данное x* , т. е. это частость

нарастающим итогом:

m∗

Q x ∗ = ∑ q i , Q xm = 1 ;

i =1

 

Полигоном частот называют ломаную линию, отрезки которой соединяют точки . Для построения полигона частот на оси абсцисс откладывают варианты , а на оси ординат – соответствующие им частоты и соединяют точки отрезками прямых.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которой служат частичные интервалы длиною h, а высоты равны отношению .

Функцией распределения выборки называют функцию , определяющую для каждого значения x относительную частоту события X<x. Таким образом, по определению , где – число вариант, меньших x, n – объем выборки. Функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

  • Математическое ожидание этого распределения имеет вид:

.

Таким образом выборочное среднее - это теоретическое среднее выборочного распределения.

  • Дисперсия выборочной функции распределения имеет вид:

.

  • Выборочная функция распределения является асимптотически нормальной оценкой теоретической функции распределения. Если , то

по распределению при .

Распределение Гаусса,Стьюдента,Пирсона

Распределение Гаусса .При больших N (N>>1) биномиальное распределение    P(n) имеет острый максимум вблизи n .  Для n не слишком удаленных от  n,  (N>>1, n = Np>>1 ) можно использовать распределения Гаусса (нормальное распределение):

 

где σ- стандартное отклонение.

Гауссово распределение плотности вероятности P(n) как функция n. Вероятность того, что n принимает значения, лежащие между n-Δn и n+Δn определяется площадью под кривой, ограниченной этим интервалом. Если Δn равно стандартному отклонению, то эта площадь равна 0.683.

Распределение Стьюдента.Распределением Стьюдента с n степенями свободы называется распределение случайной величины

t = ξ0 / ((ξ12 + ... + ξn2)/n)1/2,

где ξ0, ξ1, ... ξn - независимые стандартные нормальные случайные величины. Это распределение непрерывно, его плотность и значения параметров приведены ниже в таблице. Частный случай, соответствующий n=1, называется распределением Коши.

Распределение Пирсона. Распределение χ2 (хи-квадрат) с k степенями свободы — это распределение суммы квадратов k независимых стандартных нормальных случайных величин. Функция распределения имеет следующий вид:

,

где и обозначают соответственно полную и неполную гамма-функции.

Точечные оценки числовых характеристик случайной величины и их свойства

Наиболее часто применяемыми числовыми характеристиками случайной величины   являются начальные и центральные моменты различного порядка. Для дискретной случайной величины моменты порядка   определяются следующими формулами:

 ,                               (3.1)

для непрерывной случайной величины  :

.

Чаще всего используется первый начальный момент  , называемый математическим ожиданием случайной величины  , и второй центральный момент  , называемый дисперсией. Матожидание – это среднее значение случайной величины, его называют еще центром распределения, дисперсия характеризует разброс случайной величины относительно центра распределения. Часто вместо дисперсии используют среднее квадратичное отклонение 

Если закон распределения случайной величины неизвестен, то мы не сможем вычислить числовые характеристики. В этом случае их заменяют оценками, полученными как функции выборки  . Всякую функцию   от выборки называют статистикой. Подходящую статистику используют в качестве оценки числовой характеристики. Чаще всего оценками начальных и центральных моментов служат соответствующие выборочные начальные и центральные моменты

.                                 (3.2)

Таким образом, оценкой математического ожидания служит выборочное среднее  , но в качестве оценки можно взять и, например, величину   и другие величины.

Чтобы иметь практическую ценность, оценка некоторого параметра   должна удовлетворять следующим требованиям:

  1. Оценка   должна приближаться к оцениваемому параметру   по мере увеличения объема выборки. Если оценка стремится по вероятности к оцениваемому параметру, то она называется состоятельной.

  2. Оценка не должна содержать систематической ошибки. Это означает, что ее математическое ожидание должно совпадать с оцениваемым параметром  , т.е.  . Такая оценка называется несмещенной.

  3. Из всех состоятельных и несмещенных оценок предпочтительнее та, которая имеет наименьшую дисперсию. Такая оценка называется эффективной.

Например, среднее выборочное   является состоятельной оценкой математического ожидания, а   – несостоятельной. Второй выборочный центральный момент

                                 (3.3)

является состоятельной оценкой дисперсии, но эта оценка смещенная. Несмещенными являются оценки

 и  .                        (3.4)

Если случайная величина распределена по нормальному закону, то оценка   является и эффективной.

Пусть закон распределения известен, но зависит от одного или нескольких неизвестных параметров. Например,  – известная плотность распределения, а   – неизвестный параметр. Требуется по выборке   оценить параметр  .

Существует несколько методов оценки параметра  . Мы рассмотрим два из них – метод моментов и метод функции правдоподобия.

Метод моментов заключается в том, что теоретический момент  -го порядка   приравнивают к соответствующему выборочному моменту  . Из полученного уравнения   находят неизвестный параметр  . Например, случайная величина  (время безотказной работы радиоаппаратуры) распределена по экспоненциальному закону

,                                    (3.5)

где   – неизвестный параметр. Оценим его по методу моментов. Для этого найдем первый начальный момент

.

Так как первый выборочный момент равен  , то из равенства   получим  . Таким образом, оценкой неизвестного параметра  , найденной по методу моментов, является среднее выборочное  .

Пусть   – плотность распределения выборочного вектора  ,   – неизвестный параметр.   – функция двух аргументов, неслучайного   и случайного  , называется функцией правдоподобия. Так как   – плотность распределения, то оценка параметра  , доставляющая максимум функции правдоподобия, является наиболее вероятной. Отсюда

 или                        (3.6)

есть необходимые условия существования максимума. Оценка, полученная из условий , называется оценкой наибольшего правдоподобия.

Пусть   – случайная выборка из генеральной совокупности, распределенной по нормальному закону

,                            (3.7)

где   – неизвестный параметр. Запишем функцию правдоподобия. Так как   – независимые случайные величины, распределенные по тому же закону, а плотность распределения вектора равна произведению плотностей составляющих вектора, то функция правдоподобия будет следующей:

.                        (3.8)

Пусть   – дискретная случайная величина, закон распределения которой зависит от неизвестного параметра  . Будем рассматривать выборку   как реализацию того, что случайная величина приняла последовательно значения  . Вероятность этого равна произведению вероятностей. Следовательно, функция правдоподобия будет

.                            (3.9)

Например, для дискретной случайной величины, распределенной по закону Пуассона

                          (3.10)

функция правдоподобия согласно может быть записана в виде

.                                    (3.11)

Здесь   – целые неотрицательные числа. Однако при больших   вычисления по формуле могут приводить к переполнениям разрядной сетки.

Получение оценок параметров иллюстрируется примерами 3.1-3.4.

В данных примерах создается выборка случайных чисел с нормальным законом распределения при заданных параметрах   и  .

По полученной выборке вычисляются первый начальный момент и второй центральный момент, которые могут служить состоятельными несмещенными оценками математического ожидания и дисперсии случайной величины.

Следующий раздел примеров показывает, как оценки этих параметров могут быть получены по методу максимального правдоподобия. Для этого вводятся функции правдоподобия и определяются их экстремумы. В примере приводятся графики функций правдоподобия.

В примере также иллюстрируется использования метода наибольшего правдоподобия к оценке параметров дискретной случайной величины, распределенной по закону Пуассона. Находятся оценки параметра   по методу моментов и по методу максимального правдоподобия.

Метод наименьших квадратов.

Задача метода наименьших квадратов состоит в выборе вектора  , минимизирующего ошибку  . Эта ошибка есть расстояние от вектора   до вектора  . Вектор   лежит в простанстве столбцов матрицы  , так как   есть линейная комбинация столбцов этой матрицы с коэффициентами  . Отыскание решения   по методу наименьших квадратов эквивалентно задаче отыскания такой точки  , которая лежит ближе всего к   и находится при этом в пространстве столбцов матрицы  . Таким образом, вектор   должен быть проекцией   на пространство столбцов и вектор невязки   должен быть ортогонален этому пространству. Ортогональность состоит в том, что каждый вектор в пространстве столбцов есть линейная комбинация столбцов с некоторыми коэффициентами  , то есть это вектор  . Для всех   в пространстве  , эти векторы должны быть перпендикулярны невязке  :

Так как это равенство должно быть справедливо для произвольного вектора  , то

Решение по методу наименьших квадратов несовместной системы  , состоящей из   уравнений с   неизвестными, есть уравнение

которое называется нормальным уравнением. Если столбцы матрицы   линейно независимы, то матрица   обратима и единственное решение

Проекция вектора   на пространство столбцов матрицы имеет вид

Матрица   называется матрицей проектирования вектора   на пространство столбцов матрицы  . Эта матрица имеет два основных свойства: она идемпотентна,  , и симметрична,  . Обратное также верно: матрица, обладающая этими двумя свойствами есть матрица проектирования на свое пространство столбцов.

Интервальные оценки числовых характеристик случайной величины. Точность и доверительная вероятность интервальной оценки.

В предыдущей работе были рассмотрены методы, дающие оценку параметра в виде некоторого числа или точки на числовой оси. Такие оценки называют точечными. Точечная оценка без указания степени точности и надежности не имеет практического значения, так как представляет собой только возможное значение случайной величины, т.е. сама точечная оценка является величиной случайной. Можно доказать, что в выборке объема   из генеральной совокупности, распределенной по нормальному закону  среднее выборочное   распределено также по нормальному закону  . Величина   распределена по закону   с   степенями свободы, а   – по закону Стьюдента с   степенью свободы.

Чтобы получить представление о точности и надежности оценки   для параметра  , возьмем достаточно большую вероятность   и найдем такое  , для которого 

или  .                  (4.1)

Равенство означает, что точное, но неизвестное значение параметра   с вероятностью   накрывается интервалом  . Этот интервал называют доверительным, а вероятность   – доверительной вероятностью или надежностью оценки. Очевидно, чем меньше   для заданного  , тем точнее оценка.

В общем случае интервал, образованный статистиками   и  , называется доверительным для оцениваемого параметра  , если выполняется равенство

.                                   (4.2)

Здесь   – выборочный вектор, надежность   выбирается близкой к единице. Концы интервала называются доверительными границами.

Порядок нахождения доверительного интервала следующий. Подыскивают подходящую статистику  , зависящую от параметра  , но распределение которой от этого параметра не зависит. Задают надежность  , и по закону распределения статистики   находят доверительные границы из условия . Затем полученное неравенство решают относительно  .

Рассмотрим нахождение доверительного интервала на примерах.

При оценке вероятностных характеристик по ограниченному числу опытов могут быть допущены ошибки, т. е. отклонения этой оценки от истинного значения характеристики случайной величины.

Чтобы убедиться в том, что мы не допускаем чрезмерно грубой ошибки в оценке какой-то вероятностной характеристики, в теории вероятностей и математической статистике пользуются так называемыми доверительными интервалами и доверительными вероятностями.

Интервальной называют оценку, которая определяется двумя числами – концами интервала.

Допустим, что для изучения некоторой случайной величины X (признака генеральной совокупности) необходимо по статистическим данным произвести оценку неизвестного ее параметра θ (это может быть М(Х), D(Х) или р) с определенной степенью точности и надежности, т. е. надо указать границы, в которых практически достоверно лежит этот неизвестный параметр θ.

Это означает, что надо найти такую выборочную оценку   для искомого параметра θ, при которой с наибольшей вероятностью (надежностью) будет выполняться неравенство:

Отсюда видно, что чем меньше , тем точнее характеризуется неизвестный параметр θ с помощью выборочной оценки  . Следовательно, число  характеризует точность оценкипараметра θ.

Надежность выполнения неравенства   оценивается числом  (α = 1 – γ), которое называют доверительной вероятностью:

 

 = Р( ).                                            (1.11)

 

Итак, число  характеризует точность оценки параметра θ; число  – характеризует надежность оценки параметра θ.

В практических задачах либо заранее задается надежность  (риск α) и надо найти точность оценки, либо, наоборот, задается точность , а требуется определить надежность оценки.

Как правило, доверительную вероятность  задают числом, близким к единице: 0,95; 0,97; 0,99; 0,999.

Формула (1.11) означает, что с вероятностью   неизвестное значение параметра θ находится в интервале I = (  –   ).

 Очевидно, чем больше требуется точность  (т. е., чем меньше длина интервала), тем меньше вероятность накрыть интервалом I искомый параметр θ, и, наоборот, с уменьшением точности  (увеличением длины интервала) увеличивается надежность  накрыть интервалом I параметр θ (рис. 1.5).

 

 

Рис. 1.5. Доверительный интервал

Статистические гипотезы и их классификация. Ошибки первого и второго рода при проверке статистической гипотезы. Статистический критерий и уровень значимости. Критическая область и область принятия гипотезы.

Гипотеза в статистике — есть некое научное предположение, которое необходимо проверить и далее принять или отвергнуть. Статистической гипотезой называют предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на данные выборки. Её обозначают буквой Н (от латинского слова hypothesis). Проверку гипотез также проводят в контрольных по статистике

Простая и нулевая гипотеза

Простая гипотеза однозначно характеризует параметр распределения случайной величины. Сложная гипотеза состоит из конечного или бесконечного числа простых гипотез, здесь указывается некоторая область вероятных значений параметра. Нулевая гипотеза (Но) — это гипотеза о том, что есть две совокупности, которые сравниваются по одному или нескольким признакам, не отличаются. При этом предполагают, что действительное различие сравниваемых величин равно нулю, а выявленное по данным отличие от нуля несет случайный характер. Нулевая гипотеза отвергается в тех случаях, когда по выборке получается результат, который при истинности выдвинутой нулевой гипотезы маловероятен. Границей маловероятного или невозможного обычно считают а = 0,05 или 0,01; 0,001. Параметрическая гипотеза — это гипотеза о параметрах генеральной совокупности. Непараметрическая гипотеза — это гипотеза о параметрах распределения.

Альтернативная гипотеза в статистике

Альтернативная гипотеза (Нa). При такой гипотезе исследуемый фактор оказывает существенное влияние. Это означает, что х1 не равно х2. Ефакт = |хi – х| возникает как результат влияния фактора. При существенном влиянии фактора возникает новая совокупность с новыми характеристиками.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]