Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
теория вероятностей.docx
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
219.4 Кб
Скачать

Линейная регрессия

Если функция регрессии линейна, то говорят о линейной регрессии. Линейная регрессия (линейное уравнение) является наиболее распространенным (и простым) видом зависимости между экономическими переменными. Для этого простейшего случая имеем:

или

Последнее соотношение называется теоретической линейной регрессионной моделью; коэффициенты  – теоретическими параметрами регрессии;  – случайным отклонением.

По выборке ограниченного объема строится выборочное уравнение регрессии:

где  – оценки неизвестных параметров , называемые выборочными (эмпирическими) коэффициентами регрессии,  – оценка условного математического ожидания. Для величин  справедлива формула:

Для отыскания неизвестных параметров уравнения линейной регрессии применим метод наименьших квадратов, согласно кот неизвестные параметры а и в выбираются так,чтобы сумма квадратов отклонений эмпирических групповых средних от групповых средних, вычисленных по ур-ю у=а+вх была мин. S= Полу-чим сис-му для отыскания параметров а и в. а+вх=у, aх+вх2 =ху. Следовательно, . Коэффициент в наз-ют коэф. регрессии, он показывает на сколько еди-ниц в среднем изменяется переменная У при увелечении Х на 1. Модели, рассматриваемые в финансовом анализе связывают CВ r( доход-ность ценной бумаги) с величинами, кот. объек-тивно характеризуют финн рынок в целом. Такие величины наз-ся факторами. Разные модели финн рынка рассматривают различные величины в качестве фактора F. Основные модели: Рыноч-ная (F- доходность рыночного индекса); модели зависимости от касательного портфеля( F-доходность некоторого выделенного портфеля ценных бумаг); модель оценки финансовых ак-тивов- она может служить для выявления невер-но оцененных бумаг в неравновесной ситуации. Так, если доходность цен.бумаги выше той, кот задется ур-ем , то бумага яв-ся переоцененной.

8.Элементы теории корреляции. Коэффициент корреляции Пирсона.

Элементы теории корреляции. Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Y от случайной величины X. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой. В этом случае статистическую зависимость называют корреляционной. Условным средним yx называют среднее арифметическое наблюдавшихся значении Y , соответствующих X=x. Пример. Если при x1=2 величина Y приняла значения y1=5, y2=6, y3=10, то условное среднее yx=(5+6+10)/3. Выборочным уравнением регрессии Y на X называют уравнение вида yx=f(x). Случай 1. Пусть в результате n независимых опытов получены n пар чисел (x1,y1), (x2,y2),…, (xn,yn). Так как различные значения признака х и соответствующие им значения признака у наблюдались по одному разу, то нет надобности группировать данные и использовать понятие условной средней. Представим одну из величин как функцию другой. Для простоты ограничимся приближенным представлением величины Y как линейной функции величины X. Будем искать выборочное уравнение прямой линии регрессии Y на X вида: . Угловой коэффициент ρyx прямой линии регрессии Y на X называют выборочным коэффициентом регрессии. Параметры ρxy и b подбираются так, чтобы точки (x1,y1), (x2,y2),…, (xn,yn), построенные по данным наблюдений, на плоскости xOy лежали как можно ближе к прямой . То есть сумма квадратов отклонений (Yi – yi) должна быть минимальной. Здесь Yi - вычисленная по уравнению ордината, соответствующая xi, а yi – наблюдаемая ордината, соответствующая xi. В этом состоит сущность метода наименьших квадратов. , . Случай 2. (обобщенный) При большом числе наблюдений одно и тоже значение x может встретиться nx раз, одно и тоже значение y – ny раз, одна и та же пара чисел (x,y) может наблюдаться nxy  раз. Поэтому данные наблюдений группируют и записывают в виде таблицы, которую называют корреляционной. Пример 10 20 30 ny 0.4 5 - 7 12 0.6 - 2 6 8 0.8 3 10 - 13 nx 8 12 13 n=33 В данном случае выборочное уравнение прямой линии регрессии Y на X имеет вид где  и  - выборочные средние, σx и σy – выборочные средние квадратические отклонения, rв – выборочный коэффициент корреляции. Пример Найти выборочное уравнение прямой линии регрессии Y на X по данным n=4 наблюдений x 5 9 10 12 y 3 6 4 7 Решение: Составим расчетную таблицу. xi yi xi2 xiyi 5 9 10 12 3 6 4 7 25 81 100 144 15 54 40 84

Коэффициент корреляции Пирсона характеризует существование линейной зависимости между двумя величинами.

Пусть даны две выборки 

коэффициент корреляции Пирсона рассчитывается по формуле где  – выборочные средние  выборочные дисперсии, 

9. Элементы теории корреляции. Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Y от случайной величины X. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой. В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой. В этом случае статистическую зависимость называют корреляционной. Условным средним yx называют среднее арифметическое наблюдавшихся значении Y , соответствующих X=x. Пример. Если при x1=2 величина Y приняла значения y1=5, y2=6, y3=10, то условное среднее yx=(5+6+10)/3. Выборочным уравнением регрессии Y на X называют уравнение вида yx=f(x). Случай 1. Пусть в результате n независимых опытов получены n пар чисел (x1,y1), (x2,y2),…, (xn,yn). Так как различные значения признака х и соответствующие им значения признака у наблюдались по одному разу, то нет надобности группировать данные и использовать понятие условной средней. Представим одну из величин как функцию другой. Для простоты ограничимся приближенным представлением величины Y как линейной функции величины X. Будем искать выборочное уравнение прямой линии регрессии Y на X вида: . Угловой коэффициент ρyx прямой линии регрессии Y на X называют выборочным коэффициентом регрессии. Параметры ρxy и b подбираются так, чтобы точки (x1,y1), (x2,y2),…, (xn,yn), построенные по данным наблюдений, на плоскости xOy лежали как можно ближе к прямой . То есть сумма квадратов отклонений (Yi – yi) должна быть минимальной. Здесь Yi - вычисленная по уравнению ордината, соответствующая xi, а yi – наблюдаемая ордината, соответствующая xi. В этом состоит сущность метода наименьших квадратов. , . Случай 2. (обобщенный) При большом числе наблюдений одно и тоже значение x может встретиться nx раз, одно и тоже значение y – ny раз, одна и та же пара чисел (x,y) может наблюдаться nxy  раз. Поэтому данные наблюдений группируют и записывают в виде таблицы, которую называют корреляционной. Пример 10 20 30 ny 0.4 5 - 7 12 0.6 - 2 6 8 0.8 3 10 - 13 nx 8 12 13 n=33 В данном случае выборочное уравнение прямой линии регрессии Y на X имеет вид где  и  - выборочные средние, σx и σy – выборочные средние квадратические отклонения, rв – выборочный коэффициент корреляции. Пример Найти выборочное уравнение прямой линии регрессии Y на X по данным n=4 наблюдений x 5 9 10 12 y 3 6 4 7 Решение: Составим расчетную таблицу. xi yi xi2 xiyi 5 9 10 12 3 6 4 7 25 81 100 144 15 54 40 84

Коэффициент ранговой корреляции Спирмена - это непараметрический метод, который используется с целью статистического изучения связи между явлениями. В этом случае определяется фактическая степень параллелизма между двумя количественными рядами изучаемых признаков и дается оценка тесноты установленной связи с помощью количественно выраженного коэффициента.

Практический расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:

1) Сопоставать каждому из признаков их порядковый номер (ранг) по возрастанию (или убыванию).

2) Определить разности рангов каждой пары сопоставляемых значений.

3) Возвести в квадрат каждую разность и суммировать полученные результаты.

4) Вычислить коэффициент корреляции рангов по формуле:.

где - сумма квадратов разностей рангов, а  - число парных наблюдений.

При использовании коэффициента ранговой корреляции условно оценивают тесноту связи между признаками, считая значения коэффициента равные 0,3 и менее, показателями слабой тесноты связи; значения более 0,4, но менее 0,7 - показателями умеренной тесноты связи, а значения 0,7 и более - показателями высокой тесноты связи.

Мощность коэффициента ранговой корреляции Спирмена несколько уступает мощности параметрического коэффициента корреляции.

Коэффицент ранговой корреляции целесообразно применять при наличии небольшого количества наблюдений. Данный метод может быть использован не только для количественно выраженных данных (пример 1), но также и в случаях, когда регистрируемые значения определяются описательными признаками различной интенсивности (пример 2).

10. Точечные оценки параметров распределения и методы их нахождения

 Точечные оценки законов распределения. Функции распределения описывают пове­дение непрерывных случайных величин, т.е. величин, возможные значения которых неотделимы друг от друга и непрерывно запол­няют некоторый конечный или бесконечный интервал. На прак­тике все результаты измерений и случайные погрешности являют­ся величинами дискретными, т.е. величинами хi, возможные зна­чения которых отделимы друг от друга и поддаются счету. При использовании дискретных случайных величин возникает задача нахождения точечных оценок параметров их функций распределе­ния на основании выборок — ряда значений хi, принимаемых слу­чайной величиной х в n независимых опытах. Используемая вы­борка должна быть репрезентативной (представительной), т.е. должна достаточно хорошо представлять пропорции генеральной совокупности Х. Оценка параметра называется точечной, если она выражается одним числом. Задача нахождения точечных оценок — частный случай статистической задачи нахождения оценок параметров функции распределения случайной величины на основании выбор­ки. В отличие от самих параметров их точечные оценки являются случайными величинами, причем их значения зависят от объема экспериментальных данных, а закон распределения — от законов распределения самих случайных величин. Точечные оценки могут быть состоятельными, несмещенными и эффективными.  Состоятельной называется оценка, которая при увеличении объема выборки стремится по вероятности к ис­тинному значению числовой характеристики.  Несмещенной называется оценка, математическое ожидание которой равно оце­ниваемой числовой характеристике. Наиболее эффективной счи­тают ту из нескольких возможных несмещенных оценок, которая имеет наименьшую дисперсию. Требование несмещенности на прак­тике не всегда целесообразно, так как оценка с небольшим сме­щением и малой дисперсией может оказаться предпочтительнее несмещенной оценки с большой дисперсией. На практике не все­гда удается удовлетворить одновременно все три этих требова­ния, однако выбору оценки должен предшествовать ее критиче­ский анализ со всех перечисленных точек зрения. Наиболее распространенным методом получения оценок явля­ется метод наибольшего правдоподобия, который приводит к асимптотически несмещенным и эффективным оценкам с при­ближенно нормальным распределением. Среди других методов мож­но назвать методы моментов1  и наименьших квадратов. Точечной оценкой математического ожидания (МО) результата измерений является среднее арифметическое значение измеряемой величины  (8) При любом законе распределения МО является состоятельной и несмещенной оценкой, а также наиболее эффективной по крите­рию наименьших квадратов. Точечная оценка дисперсии является несмещенной и состоятельной, определяется по формуле (9)   Более удобна для практики другая оценка распределения случайной величины Х, это – среднее квадратическое отклонение (СКО). Оценка сред­него квадратического отклонения (СКО) случайной величины х определяется как корень квадрат­ный из дисперсии.  Соответственно его оценка может быть найдена путем извлечения корня из оценки дисперсии. Однако эта опера­ция является нелинейной процедурой, приводящей к смещенности получаемой оценки.  Для исправления оценки СКО вводят поправочный множитель k(n), зависящий от числа наблю­дений n. Он изменяется от k(3) = 1,13 до k(∞) ≈1,03. Оценка сред­него квадратического отклонения Полученные оценки МО и СКО являются случайными величи­нами. Это проявляется в том, что при повторениях серий из n наблюдений каждый раз будут получаться различные оценки  Рассеяние этих оценок целесообразно оценивать с помощью СКО . Ввиду того, что большое число измерений проводит­ся относительно редко, погрешность определения σ может быть весьма существенной. В любом случае она больше погрешности из-за смещенности оценки, обусловленной извлечением квадрат­ного корня и устраняемой поправочным множителем k(n). В связи с этим на практике пренебрегают учетом смещенности оценки СКО отдельных наблюдений и определяют его по формуле (11) т.е. считают  k(n) = 1. Иногда оказывается удобнее использовать следующие формулы для расчета оценок СКО отдельных наблюдений и результата измерения: (12) Точечные оценки других параметров распределений использу­ются значительно реже.  Доверительная вероятность и доверительный интервал. Рассмотренные точечные оценки параметров распределения дают оценку в виде числа, наиболее близкого к значению неизвестного параметра. Такие оценки используют только при большом числе измерений. Чем меньше объем выборки, тем легче допустить ошибку при выборе параметра. Для практики важно не только получить точечную оценку, но и определить интервал, называемый доверительным, между границами которого с заданной доверительной вероятностью находится истинное значение оцениваемого параметра P {xн < x < xв} = (1-q) где q — уровень значимости; хн, хв — нижняя и верхняя границы интервала разброса Х. В общем случае доверительные интервалы можно строить на основе неравенства Чебышева. При любом законе распределения случайной величины, обладающей моментами первых двух поряд­ков, верхняя граница вероятности попадания отклонения случай­ной величины х от центра распределения Хц интервал tSx описы­вается неравенством Чебышева P {|x -Xц| ≤ tSx}   ≤    (1 - 1/ t2) где Sx — оценка СКО распределения; t — положительное число. Для нахождения доверительного интервала не требуется знать закон распределения результатов наблюдений, но нужно знать оцен­ку СКО. Полученные с помощью неравенства Чебышева интервалы оказываются слишком широкими для практики. Так, доверитель­ной вероятности 0,9 для многих законов распределений соответст­вует доверительный интервал 1,6Sx. Неравенство Чебышева дает в данном случае 3,16Sx. В связи с этим оно не получило широкого распространения. В метрологической практике используют главным образом квантильные оценки доверительного интервала. Под 100*P-процентным квантилем (хр) понимают абсциссу такой вертикальной линии, слева от которой площадь под кривой плотности распределения равна Р%. Иначе говоря, квантиль — это значение случайной величины (погрешности) с заданной доверительной вероятностью Р. Напри­мер, медиана распределения является 50%-ным квантилем  - х05. На практике 25- и 75%-ный квантили принято называть сгиба­ми, или квантилями распределения. Между ними заключено 50% всех возможных значений случайной величины, а остальные 50% лежат вне их. Интервал значений случайной величины х между x0.05  и x0.95 охватывает 90% всех ее возможных значений и называ­ется интерквантильным промежутком с 90%-ной вероятностью. Его протяженность равна   d0.9 = x0.95 - x0.05 На основании такого подхода вводится понятие квантильных значений погрешности, т.е. значений погрешности с заданной до­верительной вероятностью Р — границ интервала неопределенно­сти   ±∆Д  =  ±(хр-х1-р}/2  =  ±dр/2 На его протяженности встречается Р% значений случайной величины (погрешности), а q = (1-P)% общего их числа остаются за пределами этого интервала. 1) Для получения интервальной оценки нормально распределенной случайной величины необходимо: • определить точечную оценку МО () и СКО (Sx) случайной величины по формулам (8) и (11) соответственно; • выбрать доверительную вероятность Р из рекомендуемого ряда значений 0,90; 0,95; 0,99; F(xн) = q/2 = (1 - P)/2;          F(xв) = (1 - q/2) = P + q /2 • найти верхнюю хв и нижнюю хн границы. Значения хн и хв определяются из таблиц значений интегральной функции распределения А(t) или функции Лапласа Ф(t). Полученный доверительный интервал удовлетворяет условию               (13) где n — число измеренных значений; zp — аргумент функции Лапласа Ф(t), отвечающей вероятности Р/2. В данном случае zp называется - квантильным множителем.  Половина длины доверительного интервала Dр = zpSx/n1/2 называется доверительной границей погрешности результата измерений Пример 1. Произведено 50 измерений постоянного сопротивления. Определить доверительный интервал для МО значения постоянного сопротивле­ния, если закон распределения нормальный с параметрами mx =  = 590 Ом, Sx = 90 Ом    при доверительной вероятности Р = 0,9. Так как гипотеза о нормальности закона распределения не противоре­чит опытным данным, доверительный интервал определяется по формуле           Ф(zр) = Р/2 = 0,45.  Из таблицы, приведенной в приложении 1, находим, что   zp= 1,65. Следовательно, доверительный интервал запишется в виде (590 - 1,65 *90/501/2) <  R  < (590 + 1,65 • 90 / 501/2)   или   (590-21) < R < (590+21). Окончательно 569 Ом < R < 611 Ом. При отличии закона распределения случайной величины от нормального необходимо построить его математическую модель и определять доверительный интервал с ее использованием. Рассмотренный способ нахождения доверительных интерва­лов справедлив для достаточно большого числа наблюдений n, когда σ = Sx. Следует помнить, что вычисляемая оценка СКО Sx является лишь некоторым приближением к истинному значению  σ. Определение доверительного интервала при заданной вероятно­сти оказывается тем менее надежным, чем меньше число наблюдений. Нельзя пользоваться формулами нормального распределения при малом числе наблюдений, если нет возможности теоретически на основе предварительных опытов с достаточно большим числом наблюдений определить СКО. . 2) Расчет доверительных интервалов для случая, когда распреде­ление результатов наблюдений нормально, но их дисперсия неиз­вестна, т.е. при малом числе наблюдений n, возможно выполнить с использованием распределения Стьюдента S(t,k). Оно описывает плотность распределения отношения (дроби Стьюдента): где Q — истинное значение измеряемой величины. Величины ,  и   вычисляются на основании опытных данных и представ­ляют собой точечные оценки: МО, СКО среднего арифметического значения и СКО результатов измерений. = / n1/2 Вероятность того, что дробь Стьюдента в результате выполненных наблюдений примет некоторое значение в интервале (-tp; +tр). tp - называется коэффициентом Стьюдента.  (14) где k — число степеней свободы, равное (n - 1). Величины tp (называемые в данном случае коэффициентами Стьюдента), рас­считанные с помощью двух последних формул для различных зна­чений доверительной вероятности и числа измерений, табулированы (см. таблицу в приложении 2). Следовательно, с помощью распределения Стьюдента можно найти вероятность того, что от­клонение среднего арифметического от истинного значения изме­ряемой величины не превышает . В тех случаях, когда распределение случайных погрешностей не является нормальным, все же часто пользуются распределением Стьюдента с приближением, степень которого остается неизвест­ной. Распределение Стьюдента применяют при числе измерений n < 30, поскольку уже при n = 20, ..., 30 оно переходит в нормаль­ное и вместо уравнения (14) можно использовать уравнение (13). Результат измерения записывается в виде:   где Рд — конкретное значение доверительной вероятности. Множи­тель t при большом числе измерений (n) равен квантильному множи­телю zр. При малом n он равен коэффициенту Стьюдента. Полученный результат измерения не является одним конкрет­ным числом, а представляет собой интервал, внутри которого с некоторой вероятностью Рд находится истинное значение измеряе­мой величины. Выделение середины интервала вовсе не предпо­лагает, что истинное значение ближе к нему, чем к остальным точкам интервала. Оно может быть в любом месте интервала, а с вероятностью 1-Рд даже вне его. Пример 2.  Определение удельных магнитных потерь для различных образцов одной партии электротехнической стали марки 2212 дало следую­щие результаты: 1.21; 1.17; 1,18; 1,13; 1,19; 1,14; 1,20 и 1,18 Вт/кг. Счи­тая, что систематическая погрешность отсутствует, а случайная распределена по нормальному закону, требуется определить доверительный интер­вал при значениях доверительной вероятности 0,9 и 0,95. Для решения задачи использовать формулу Лапласа в распределении Стьюдента. 1) По формулам (8) и (11) находим оценки среднего арифметического значения и СКО результатов измерений. Они соответственно равны = 1,18  и  Sx = 0,0278 Вт/кг. Считая, что оценка СКО равна самому отклонению, находим: Отсюда, используя значения функции Лапласа, приведенные в таблице приложения 1, определяем, что zр = 1,65 (для Р = 0,9). Для Р = 0,95 коэффициент 2-й   zp = 1,96. Доверительные интервалы, соответствующие Р = 0,9 и 0,95, рав­ны 1,18±0,016 Вт/кг и 1,18±0,019 Вт/кг. 2) В том случае, когда нет оснований считать, что СКО и его оценка равны, доверительный интервал определяется на основе распределения Стьюдента: По таблице в приложении  2  находим, что  t0.9 = 1,9   и   t0.95 = 2,37. Отсюда доверительные интервалы соответственно равны  1,18±0,019 Вт/кг    и  1,18±0,023 Вт/кг.  

Точечные оценки параметров. Метод моментов. 

В этом методе используются теоретические формулы, которые связывают оцениваемый параметр с моментами случайной величины. Для получения оценки неизвестного параметра нужно в соответствующую формулу подставить вместо теоретических моментов эмпирические моменты.  Пример. Случайная величина X распределена по экспоненциальному закону: f(x) = λexp{– λx}, где λ> 0, x > 0, причём параметр неизвестен. Требует оценить этот параметр.  Решение. Известна формула, связывающая параметр экспоненциального распределения λ с математическим ожиданием mx: λ=1/m. Подставляя в эту формулу вместо mx оценку mx* , получим оценку параметра λ : 

λ* =1/mx*

11. . Точечные оценки параметров распределения и методы их нахождения

 Точечные оценки законов распределения. Функции распределения описывают пове­дение непрерывных случайных величин, т.е. величин, возможные значения которых неотделимы друг от друга и непрерывно запол­няют некоторый конечный или бесконечный интервал. На прак­тике все результаты измерений и случайные погрешности являют­ся величинами дискретными, т.е. величинами хi, возможные зна­чения которых отделимы друг от друга и поддаются счету. При использовании дискретных случайных величин возникает задача нахождения точечных оценок параметров их функций распределе­ния на основании выборок — ряда значений хi, принимаемых слу­чайной величиной х в n независимых опытах. Используемая вы­борка должна быть репрезентативной (представительной), т.е. должна достаточно хорошо представлять пропорции генеральной совокупности Х. Оценка параметра называется точечной, если она выражается одним числом. Задача нахождения точечных оценок — частный случай статистической задачи нахождения оценок параметров функции распределения случайной величины на основании выбор­ки. В отличие от самих параметров их точечные оценки являются случайными величинами, причем их значения зависят от объема экспериментальных данных, а закон распределения — от законов распределения самих случайных величин. Точечные оценки могут быть состоятельными, несмещенными и эффективными.  Состоятельной называется оценка, которая при увеличении объема выборки стремится по вероятности к ис­тинному значению числовой характеристики.  Несмещенной называется оценка, математическое ожидание которой равно оце­ниваемой числовой характеристике. Наиболее эффективной счи­тают ту из нескольких возможных несмещенных оценок, которая имеет наименьшую дисперсию. Требование несмещенности на прак­тике не всегда целесообразно, так как оценка с небольшим сме­щением и малой дисперсией может оказаться предпочтительнее несмещенной оценки с большой дисперсией. На практике не все­гда удается удовлетворить одновременно все три этих требова­ния, однако выбору оценки должен предшествовать ее критиче­ский анализ со всех перечисленных точек зрения. Наиболее распространенным методом получения оценок явля­ется метод наибольшего правдоподобия, который приводит к асимптотически несмещенным и эффективным оценкам с при­ближенно нормальным распределением. Среди других методов мож­но назвать методы моментов1  и наименьших квадратов. Точечной оценкой математического ожидания (МО) результата измерений является среднее арифметическое значение измеряемой величины  (8) При любом законе распределения МО является состоятельной и несмещенной оценкой, а также наиболее эффективной по крите­рию наименьших квадратов. Точечная оценка дисперсии является несмещенной и состоятельной, определяется по формуле (9)   Более удобна для практики другая оценка распределения случайной величины Х, это – среднее квадратическое отклонение (СКО). Оценка сред­него квадратического отклонения (СКО) случайной величины х определяется как корень квадрат­ный из дисперсии.  Соответственно его оценка может быть найдена путем извлечения корня из оценки дисперсии. Однако эта опера­ция является нелинейной процедурой, приводящей к смещенности получаемой оценки.  Для исправления оценки СКО вводят поправочный множитель k(n), зависящий от числа наблю­дений n. Он изменяется от k(3) = 1,13 до k(∞) ≈1,03. Оценка сред­него квадратического отклонения Полученные оценки МО и СКО являются случайными величи­нами. Это проявляется в том, что при повторениях серий из n наблюдений каждый раз будут получаться различные оценки  Рассеяние этих оценок целесообразно оценивать с помощью СКО . Ввиду того, что большое число измерений проводит­ся относительно редко, погрешность определения σ может быть весьма существенной. В любом случае она больше погрешности из-за смещенности оценки, обусловленной извлечением квадрат­ного корня и устраняемой поправочным множителем k(n). В связи с этим на практике пренебрегают учетом смещенности оценки СКО отдельных наблюдений и определяют его по формуле (11) т.е. считают  k(n) = 1. Иногда оказывается удобнее использовать следующие формулы для расчета оценок СКО отдельных наблюдений и результата измерения: (12) Точечные оценки других параметров распределений использу­ются значительно реже.  Доверительная вероятность и доверительный интервал. Рассмотренные точечные оценки параметров распределения дают оценку в виде числа, наиболее близкого к значению неизвестного параметра. Такие оценки используют только при большом числе измерений. Чем меньше объем выборки, тем легче допустить ошибку при выборе параметра. Для практики важно не только получить точечную оценку, но и определить интервал, называемый доверительным, между границами которого с заданной доверительной вероятностью находится истинное значение оцениваемого параметра P {xн < x < xв} = (1-q) где q — уровень значимости; хн, хв — нижняя и верхняя границы интервала разброса Х. В общем случае доверительные интервалы можно строить на основе неравенства Чебышева. При любом законе распределения случайной величины, обладающей моментами первых двух поряд­ков, верхняя граница вероятности попадания отклонения случай­ной величины х от центра распределения Хц интервал tSx описы­вается неравенством Чебышева P {|x -Xц| ≤ tSx}   ≤    (1 - 1/ t2) где Sx — оценка СКО распределения; t — положительное число. Для нахождения доверительного интервала не требуется знать закон распределения результатов наблюдений, но нужно знать оцен­ку СКО. Полученные с помощью неравенства Чебышева интервалы оказываются слишком широкими для практики. Так, доверитель­ной вероятности 0,9 для многих законов распределений соответст­вует доверительный интервал 1,6Sx. Неравенство Чебышева дает в данном случае 3,16Sx. В связи с этим оно не получило широкого распространения. В метрологической практике используют главным образом квантильные оценки доверительного интервала. Под 100*P-процентным квантилем (хр) понимают абсциссу такой вертикальной линии, слева от которой площадь под кривой плотности распределения равна Р%. Иначе говоря, квантиль — это значение случайной величины (погрешности) с заданной доверительной вероятностью Р. Напри­мер, медиана распределения является 50%-ным квантилем  - х05. На практике 25- и 75%-ный квантили принято называть сгиба­ми, или квантилями распределения. Между ними заключено 50% всех возможных значений случайной величины, а остальные 50% лежат вне их. Интервал значений случайной величины х между x0.05  и x0.95 охватывает 90% всех ее возможных значений и называ­ется интерквантильным промежутком с 90%-ной вероятностью. Его протяженность равна   d0.9 = x0.95 - x0.05 На основании такого подхода вводится понятие квантильных значений погрешности, т.е. значений погрешности с заданной до­верительной вероятностью Р — границ интервала неопределенно­сти   ±∆Д  =  ±(хр-х1-р}/2  =  ±dр/2 На его протяженности встречается Р% значений случайной величины (погрешности), а q = (1-P)% общего их числа остаются за пределами этого интервала. 1) Для получения интервальной оценки нормально распределенной случайной величины необходимо: • определить точечную оценку МО () и СКО (Sx) случайной величины по формулам (8) и (11) соответственно; • выбрать доверительную вероятность Р из рекомендуемого ряда значений 0,90; 0,95; 0,99; F(xн) = q/2 = (1 - P)/2;          F(xв) = (1 - q/2) = P + q /2 • найти верхнюю хв и нижнюю хн границы. Значения хн и хв определяются из таблиц значений интегральной функции распределения А(t) или функции Лапласа Ф(t). Полученный доверительный интервал удовлетворяет условию               (13) где n — число измеренных значений; zp — аргумент функции Лапласа Ф(t), отвечающей вероятности Р/2. В данном случае zp называется - квантильным множителем.  Половина длины доверительного интервала Dр = zpSx/n1/2 называется доверительной границей погрешности результата измерений Пример 1. Произведено 50 измерений постоянного сопротивления. Определить доверительный интервал для МО значения постоянного сопротивле­ния, если закон распределения нормальный с параметрами mx =  = 590 Ом, Sx = 90 Ом    при доверительной вероятности Р = 0,9. Так как гипотеза о нормальности закона распределения не противоре­чит опытным данным, доверительный интервал определяется по формуле           Ф(zр) = Р/2 = 0,45.  Из таблицы, приведенной в приложении 1, находим, что   zp= 1,65. Следовательно, доверительный интервал запишется в виде (590 - 1,65 *90/501/2) <  R  < (590 + 1,65 • 90 / 501/2)   или   (590-21) < R < (590+21). Окончательно 569 Ом < R < 611 Ом. При отличии закона распределения случайной величины от нормального необходимо построить его математическую модель и определять доверительный интервал с ее использованием. Рассмотренный способ нахождения доверительных интерва­лов справедлив для достаточно большого числа наблюдений n, когда σ = Sx. Следует помнить, что вычисляемая оценка СКО Sx является лишь некоторым приближением к истинному значению  σ. Определение доверительного интервала при заданной вероятно­сти оказывается тем менее надежным, чем меньше число наблюдений. Нельзя пользоваться формулами нормального распределения при малом числе наблюдений, если нет возможности теоретически на основе предварительных опытов с достаточно большим числом наблюдений определить СКО. . 2) Расчет доверительных интервалов для случая, когда распреде­ление результатов наблюдений нормально, но их дисперсия неиз­вестна, т.е. при малом числе наблюдений n, возможно выполнить с использованием распределения Стьюдента S(t,k). Оно описывает плотность распределения отношения (дроби Стьюдента): где Q — истинное значение измеряемой величины. Величины ,  и   вычисляются на основании опытных данных и представ­ляют собой точечные оценки: МО, СКО среднего арифметического значения и СКО результатов измерений. = / n1/2 Вероятность того, что дробь Стьюдента в результате выполненных наблюдений примет некоторое значение в интервале (-tp; +tр). tp - называется коэффициентом Стьюдента.  (14) где k — число степеней свободы, равное (n - 1). Величины tp (называемые в данном случае коэффициентами Стьюдента), рас­считанные с помощью двух последних формул для различных зна­чений доверительной вероятности и числа измерений, табулированы (см. таблицу в приложении 2). Следовательно, с помощью распределения Стьюдента можно найти вероятность того, что от­клонение среднего арифметического от истинного значения изме­ряемой величины не превышает . В тех случаях, когда распределение случайных погрешностей не является нормальным, все же часто пользуются распределением Стьюдента с приближением, степень которого остается неизвест­ной. Распределение Стьюдента применяют при числе измерений n < 30, поскольку уже при n = 20, ..., 30 оно переходит в нормаль­ное и вместо уравнения (14) можно использовать уравнение (13). Результат измерения записывается в виде:   где Рд — конкретное значение доверительной вероятности. Множи­тель t при большом числе измерений (n) равен квантильному множи­телю zр. При малом n он равен коэффициенту Стьюдента. Полученный результат измерения не является одним конкрет­ным числом, а представляет собой интервал, внутри которого с некоторой вероятностью Рд находится истинное значение измеряе­мой величины. Выделение середины интервала вовсе не предпо­лагает, что истинное значение ближе к нему, чем к остальным точкам интервала. Оно может быть в любом месте интервала, а с вероятностью 1-Рд даже вне его. Пример 2.  Определение удельных магнитных потерь для различных образцов одной партии электротехнической стали марки 2212 дало следую­щие результаты: 1.21; 1.17; 1,18; 1,13; 1,19; 1,14; 1,20 и 1,18 Вт/кг. Счи­тая, что систематическая погрешность отсутствует, а случайная распределена по нормальному закону, требуется определить доверительный интер­вал при значениях доверительной вероятности 0,9 и 0,95. Для решения задачи использовать формулу Лапласа в распределении Стьюдента. 1) По формулам (8) и (11) находим оценки среднего арифметического значения и СКО результатов измерений. Они соответственно равны = 1,18  и  Sx = 0,0278 Вт/кг. Считая, что оценка СКО равна самому отклонению, находим: Отсюда, используя значения функции Лапласа, приведенные в таблице приложения 1, определяем, что zр = 1,65 (для Р = 0,9). Для Р = 0,95 коэффициент 2-й   zp = 1,96. Доверительные интервалы, соответствующие Р = 0,9 и 0,95, рав­ны 1,18±0,016 Вт/кг и 1,18±0,019 Вт/кг. 2) В том случае, когда нет оснований считать, что СКО и его оценка равны, доверительный интервал определяется на основе распределения Стьюдента: По таблице в приложении  2  находим, что  t0.9 = 1,9   и   t0.95 = 2,37. Отсюда доверительные интервалы соответственно равны  1,18±0,019 Вт/кг    и  1,18±0,023 Вт/кг.  

Метод наименьших квадратов (МНК) – один из наиболее часто используемых методов при обработке эмпирических данных, построении и анализе физических, биологических, технических, экономических и социальных моделей1. С помощью МНК решают задачу выбора параметров функции (заранее заданного вида) для приближённого описания зависимости величины у от величины х. Исходные данные могут носить самый разнообразный характер и относиться к различным отраслям науки или техники, например:  зависимость продолжительности службы электрических ламп  от поданного на них напряжения ;  зависимость пробивного напряжения конденсаторов  от температуры окружающей среды ;  зависимость предела прочности стали  от содержания углерода ;  зависимость показателей безработицы  и инфляции ;  зависимость роста преступности,% и роста безработицы ,%  зависимость цен товара  от спроса  на этот товар;  зависимость частного потребления  от располагаемого дохода ;  зависимость температура воздуха  от высоты над уровнем моря  и другие зависимости.

12. ИНТЕРВАЛЬНАЯ ОЦЕНКА

для неизвестного истинного значения скалярного параметра вероятностного распределения - интервал, принадлежащий множеству допустимых значений параметра, границы к-рого суть функции от результатов наблюдений, подчиняющихся данному распределению. Пусть X- случайная величина, принимающая значения в выборочном пространстве    G - интервал на действительной прямой, причем истинное значение параметра 0 неизвестно. Интервал границы к-рого являются функциями от подлежащего наблюдению значения случайной величины X, наз. И. о., или доверительным интервалом для 6, число

Исходные положения:

  • дана выборка из генеральной совокупности х„ / = 1 ,п;

  • элементы выборки Xj независимы и случайны;

  • щ - точечная оценка математического ожидания, полученная по выборке объема п;

  • о известна, т.е. известно истинное значение о.

Примем без доказательства, что асимптотическое распределение щ (как случайной величины) при известном а стремится, как правило, к нормальному распределению [1, 4, 5]  lim W( щ ) = fVfif щ ),  /?—gt;00  где индекс N означает нормальное распределение.  Используя правила построения доверительных интервалов, потребуем, чтобы выполнялось условие  Р{\ щ-т\\lt;Ъ}=р.              (22)  Раскроем выражение в скобках, одновременно проводя стандартизацию случайных величин щ - 8 и щ + 5, с помощью преобразования вида (Х-гП])/с, где т\ и ст - соответственно  математическое ожидание и среднеквадратическое отклонение случайной величины X. При этом получим  nf -              =              ~              . 21 Л , (щ +6)-Л/(/Й,)  Р{тх-Ъlt;т\ lt; Wj + б} = Ф {4—               —              } -  о  о  1 '              1  гдеФ(х) = -»= f е 2dt = —1-Ф0(х) -функцияЛапласа,  v2n „о,              2  /2  1 X  а Ф (х) = -т=|е 2 dt - интеграл вероятностей. v2n о  Из свойств математического ожидания и дисперсии для одинаково распределенных взаимно независимых случайных величин [4] получим  М{щ} = щ, а{щ} = а/фп.  Следовательно,  d* -              х              -              j-xt              f  P{ mx              - 6 lt; nt\ lt; mx              + §} = Ф lt;              [ j f' 

Известно, что функция нормального распределения нечетная, т.е.  Тогда, используя (22), получим  Р{ щ - 6 lt; т\ lt; щ + 6} = 2 Ф j-^Ц =р ,  •Ш-рв.  Чтобы определить ширину доверительного интервала 8, необходимо найти функцию, обратную функции распределения  byfn  Up/2              ,  а  где ирп - квантиль нормального распределения уровня pH. Она может быть найдена по таблицам функции нормального распределения (см. прил. 1),  Следовательно,  Гп'  5 = ир/2  и в качестве доверительного интервала для т\ можно использовать интервал  (23)  о              а  Щ - ирп• —г= lt;Ш\lt; тх + ир,г-j= Vh              vw  Проанализируйте последнее выражение и определите, как изменяется ширина доверительного интервала с изменением объема выборки и доверительной вероятности.  Ж  Пример 9. Результаты исследования длительности оборота оборотных средств торговых фирм города (в днях) представлены в группированном виде

(Г0н

14-23

23-32

32-41

41-50

50-59

59-68

68-77

«/

2

3

9

17

10

6

3

Построить доверительный интервал при р = 0,95 для средней длительности оборота оборотных средств торговых фирм города при условии, что среднеквадратичное отклонение а известно и равно 10 дням. В данном примере щ =47,12. Квантиль нормального распределения для р = 0,95 найдем из таблицы прил. 1  Используя (23), получим доверительный интервал для т\ при известном а 

13. . ИНТЕРВАЛЬНАЯ ОЦЕНКА

для неизвестного истинного значения скалярного параметра вероятностного распределения - интервал, принадлежащий множеству допустимых значений параметра, границы к-рого суть функции от результатов наблюдений, подчиняющихся данному распределению. Пусть X- случайная величина, принимающая значения в выборочном пространстве    G - интервал на действительной прямой, причем истинное значение параметра 0 неизвестно. Интервал границы к-рого являются функциями от подлежащего наблюдению значения случайной величины X, наз. И. о., или доверительным интервалом для 6, число

  1. Построение доверительного интервала для математического ожидания при неизвестной дисперсии

Допустим, что выборка из генеральной совокупности имеет нормальное распределение. Тогда примем без доказательства, что щ (являясь случайной величиной) при неизвестном о распределено как (-распределение Стьюдента с (и - 1) числом степеней свободы [1,4, 5].  При этом доверительный интервал для mi при неизвестном о для заданного уровня доверительной вероятности р может быть найден из выражения 

где а = 1 -р, a (і_а/2 - квантиль (-распределения Стьюдента с (и - 1) числом степеней свободы уровня (1-а/2), которая может быть найдена по статистическим таблицам квантилей или процентных точек (-распределения Стьюдента (см. прил. 2).  Пример 10. Для задачи из примера 9 при р = 0,95 получить интервальную оценку для тх при условии, что S = 10,66, щ =47,12. Из таблиц процентных точек (-распределения Стьюдента)найдем  

14.Проверка гипотез. Ошибки 1-го и 2-го рода. Как влияет на ошибку 2-го рода увеличение доверительной вероятности для ведущей гипотезы?

Часто делают выборку, чтобы определить аргумен­ты против гипотезы относительно популяции (генеральной совокупности). Этот процесс известен как проверка гипотез (проверка статистических гипотез или проверка значимости), он представляет количественную меру аргументов про­тив определенной гипотезы.

Установлено 5 стадий при проверке гипотез:

  1. Определение нулевой () и альтернативной гипотезы  ()  при исследовании. Определение уровня значимости критерия.   

  2. Отбор необходимых данных из выборки.

  3. Вычисление значения статистики критерия, отвечающей .

  4. Вычисление критической области, проверка статистики критерия на предмет попадания в критическую область. 

  5. Интерпретация достигнутого уровня значимости р и результатов.