Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1-15,17-24.doc
Скачиваний:
9
Добавлен:
21.04.2019
Размер:
377.34 Кб
Скачать

1 Область применения

Настоящие рекомендации, определяют правила проверки согласия опытного распределения с теоретическим законом распределения непрерывной случайной величины.

Настоящие рекомендации могут быть использованы при разработке правил и рекомендаций по стандартизации, метрологии, сертификации и аккредитации, применяемых Госстандартом России и использующих методы статистического анализа.

Настоящие рекомендации предназначены для использования в качестве руководства по применению непараметрических критериев согласия при статистической обработке результатов наблюдений, измерений, контроля, испытаний продукции.

Критерий Колмогорова

В случае простых гипотез предельные распределения статистик рассматриваемых критериев согласия Колмогорова, Смирнова, ω2 и Ω2 Мизеса известны и независимы от вида наблюдаемого закона распределения и, в частности, от его параметров. Считают, что эти критерии являются «свободными от распределения». Это достоинство предопределяет широкое использование данных критериев в различных приложениях.

Предельное распределение статистики

                                               (4)

где F n (х ) - эмпирическая функция распределения; F ( x , θ ) - теоретическая функция распределения; п - объем выборки, - было получено Колмогоровым в [ 2]. При п →∞ функция распределения статистики  сходится равномерно к функции распределения Колмогорова

.                                                 (5)

Наиболее часто в критерии Колмогорова (Колмогорова - Смирнова) используют статистику вида [ 3]

,                                                            (6)

где

,                                                        (7)

,                                              (8)

;                                             (9)

n - объем выборки; х1, х2, ..., xn - упорядоченные по возрастанию выборочные значения; F ( x , θ) - функция закона распределения, согласие с которым проверяют. Распределение величины SK при простой гипотезе в пределе подчиняется закону Колмогорова с функцией распределения K ( S ).

Если для вычисленного по выборке значения статистики S * К выполняется неравенство P {S>S* К } = 1 - K(S* К ) > α,   то нет оснований для отклонения гипотезы H 0 .

22 Критерий омега-квадрат (критерий Смирнова)

Критерий омега-квадрат, также называемый критерием Смирнова-Крамера-фон Мизеса, используется для проверки гипотезы "случайная величина имеет распределение ".

Примеры задач Критерий омега-квадрат уместно применять в тех случаях, когда нужно проверить, подчиняется ли наблюдаемая случайная величина некоторому закону распределения, известному с точностью до параметров. Например, все исходы, выдаваемые рулеткой казино, должны быть равновероятны. Предположим, требуется выяснить, можно ли считать некоторую рулетку "честной". Для этого следует составить достаточно большую выборку из исходов этой рулетки. Чтобы установить, является ли полученная выборка равномерно распределённой, можно воспользоваться критерием омега-квадрат.

Описание критерия

Пусть - элементы выборки. Статистика критерия имеет вид

,

где - теоретическая функция распределения. Важно, что она должна быть известна с точностью до параметров. Оценивание параметров по выборке приведёт к уменьшению величины критического значения статистики, т. е. к увеличению количества ошибок второго рода.

При объёме выборки можно пользоваться квантилями распределения , приведенными в следующей таблице:

0,900

0,950

0,990

0,995

0,999

0,3473

0,4614

0,7435

0,8694

1,1679

При таблицей можно пользоваться с заменой на

Использование критерия для проверки нормальности

При помощи критерия омега-квадрат определяется, описывает ли заданная функция наблюдаемое распределение , в то время как для проверки нормальности требуется выяснить, принадлежит ли функция распределения величины параметрическому семейству функций. Возможный способ решения заключается в использовании выборочных оценок среднего и дисперсии. Однако в этом случае следует использовать другие критические значения статистики

23 Статистическая зависимость. Корреляция и регрессия.

Возникновение понятия статистической связи обусловливается тем, что зависимая переменная подвержена влиянию неконтролируемых или неучтённых факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками.

Статистическая зависимость между двумя переменными, при которой каждому значению одной переменной соответствует определённое условное математическое ожидание (среднее значение) другой, называется корреляционной.

Функциональная зависимость представляет собой частный случай корреляционной. При функциональной зависимости с изменением значений некоторой переменной x однозначно изменяется определенное значение переменной y, при корреляционной – определённое среднее значение (математическое ожидание) y, а при статистической – определённое распределение переменной y. Каждая корреляционная зависимость является статистической, но не каждая статистическая зависимость является корреляционной.   Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей корреляционного анализа является выявление связи между случайными переменными и оценка её степени. Основной  задачей регрессионного анализа является установление формы и изучение зависимости между переменными.

Корреляция

Корреляция определяет степень,с которой значения двух переменных«пропорциональ-ны»друг другу. Пропорциональность означает просто линейную зависимость. Корреляция высокая, если на графике зависимость «можно представить» прямой линией(с положительным или отрицательным углом наклона).Т.о, это простейшая рег-рессионная модель, описывающая зависимость одной переменной от одного фактора.В производственных условиях обычно информации, полученной из диаграмм рассеяния при условии их корректного построения, бывает достаточно для того, чтобы оценить степень зависимости у от х.Но в ряде случаев требуется дать количественную оценку степени связи между величинами х и у. Такой оценкой явл. коэффициент корреляции.

Отметим основные характеристики этого показателя.

  • Он может принимать значения от –1 до +1. Знак «+» означает, что связь прямая (когда значения одной переменной возрастают, значения другой переменной также возрастают), «–» означает, что связь обратная.

  • Чем ближе коэффициент к |1|, тем теснее линейная связь. При величине коэф- фициента корреляции менее 0,3 связь оценивается как слабая, от 0,31 до 0,5 – умерен-ная, от 0,51 до 0,7 – значительная, от 0,71 до 0,9 – тесная, 0,91 и выше – очень тесная.

  • Если все значения переменных увеличить (уменьшить) на од­но и то же число или в одно и то же число раз, то величина коэф­фициента корреляции не изменится.

  • При r=±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на общей прямой. Её ещё называют линией регрессии.

  • При r=0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общи­ми средними, а линии регрессии параллельны осям координат.

Равенство r=0 говорит лишь об отсутствии линейной корреляционной зависимости (некоррелирован­ности переменных), но не вообще об отсутствии корреляционной, а тем более, статистической зависимости.

Основываясь на коэффициентах корреляции, вы не можете строго доказать причин-ной зависимости между переменными, однако можете определить ложные корреля-ции, т.е. корреляции, которые обусловлены влияниями «других», остающихся вне вашего поля зрения переменных. Лучше всего понять ложные корреляции на простом примере. Известно, что существует корреляция между ущербом, причиненным пожаром, и числом пожарных, тушивших пожар. Однако эта корреляция ничего не говорит о том, насколько уменьшатся потери, если будет вызвано меньше число пожарных. Причина в том, что имеется третья переменная (начальный размер пожара), которая влияет как на причинённый ущерб, так и на число вызванных пожарных. Если вы будете учитывать эту переменную, например, рассматривать только пожары определённой величины, то исходная корреляция между ущербом и числом пожарных либо исчезнет, либо, возможно, даже изменит свой знак. Основная проблема ложной корреляции состоит в том, что вы не знаете, кто является её носителем. Тем не менее, если вы знаете, где искать, то можно воспользоваться частные корреляции, чтобы контролировать (частично исключённое) влияние определённых переменных.

Корреляция, совпадение или необычное явление сами по себе ничего не доказывают, но они могут привлечь внимание к отдельным вопросам и привести к дополнительному исследованию. Хотя корреляция прямо не указывает на причинную связь, она может служить ключом к разгадке причин. При благоприятных условиях на её основе можно сформулировать гипотезы, проверяемые экспериментально, когда возможен контроль других влияний, помимо тех немногочисленных, которые подлежат исследованию.

Иногда вывод об отсутствии корреляции важнее наличия сильной корреляции. Нулевая корреляция двух переменных может свидетельствовать о том, что никакого влияния одной переменной на другую не существует, при условии, что мы доверяем результатам измерений.

РЕГРЕССИЯ ЛИНЕЙНАЯ МНОЖЕСТВЕННАЯ - причинная модель статистичес-кой связи линейной между переменной зависимой y и переменными независимыми x1,x2,...,xk, представленная уравнением y=b1x1 + b2x2 +.. + bkxk + a = ∑ bixi + a

Регрессионный анализ является одним  из наиболее распространённых методов обработки экспериментальных данных при изучении зависимостей в физике, биологии, экономике, технике и других областях.

Исследование объективно существующих связей между явлениями – важнейшая задача общей теории статистики. Регрессионный анализ заключается в определении аналитического выражения, в котором изменение одной величины (называемой зависимой или результативным признаком) y обусловлено  влиянием одной или нескольких независимых величин (факторов) x1, x2,…, xn, а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения.

Регрессия может быть однофакторной (парной) и многофакторной (множественной). Для простой (парной) регрессии в условиях, когда достаточно полно установлены причинно-следственные связи, можно использовать графическое изображение. При множественности причинных связей невозможно чётко разграничить одни причинные явления от других. В этом случае наиболее приемлемым способом определения зависимости (уравнения регрессии) является метод перебора различных уравнений, реализуемый с помощью компьютера.

После выбора вида регрессионной модели, используя результаты наблюдений зависимой переменной и факторов, нужно вычислить оценки (приближённые значения) параметров регрессии, а затем проверить значимость и адекватность модели результатам наблюдений.

Порядок проведения регрессионного анализа следующий:

  • выбор модели регрессии, что заключает в себе предположение о зависимости функций регрессии от факторов;

  • оценка параметров регрессии в выбранной модели методом наименьших квадратов;

  • проверка статистических гипотез о регрессии.

24 Дисперсионный анализ

(от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик). В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): , а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.

Основной целью дисперсионного анализа (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).

Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компо­ненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F—критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.

Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок: , которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).

Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным.

Дисперсионный анализ используют, если зависимая переменная измеряется в шкале отношений, интервалов или порядка, а влияющие переменные имеют нечисловую природу (шкала наименований). Пусть с помощью методов M1,...,Mm производится измерение нескольких параметров, чьи точные значения — a1,...,an. В таком случае, результаты измерений различных величин различными методами можно представить как: xi,j = ai + bi,j + di,j, где:

  • xi,j — результат измерения i-го параметра по методу Mj;

  • ai — точное значение i-го параметра;

  • bi,j — систематическая ошибка измерения i-го параметра по методу Mj;

  • di,j — случайная ошибка измерения i-го параметра по методу Mj.

Тогда дисперсии случайных величин xi,j, xi,jxi, *x * ,j + x * , * , xi, * , x * ,j (где:

) выражаются как:

и удовлетворяют тождеству:

Двухфакторная схема позволяет лишь обнаружить систематические расхождения, но непригодна для их численной оценки с последующим исключением из результатов наблюдений. Эта цель может быть достигнута только при многократных измерениях (то есть при повторных использованиях указанной схемы над данными повторных экспериментов).

Перечень методов

  • Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж.

Данные состоят из нескольких рядов наблюдений (обработок), которые рассматриваются как реализации независимых между собой выборок. Исходная гипотеза говорит об отсутствии различия в обработках, т.е. предполагается, что все наблюдения можно считать одной выборкой из общей совокупности:

  • Однофакторная параметрическая модель: метод Шеффе.

  • Однофакторная непараметрическая модель: критерий Краскела-Уоллиса, критерий Джонкхиера.

  • Общий случай модели с постоянными факторами, теорема Кокрена.

Данные представляют собой двухкратные повторные наблюдения:

  • Двухфакторная непараметрическая модель: критерий Фридмана, критерий Пейджа. Примеры: сравнение эффективности методов производства, агротехнических приёмов.

  • Двухфакторная непараметрическая модель для неполных данных

  • Двухфакторный нормальный анализ.

  • Ковариационный анализ.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]