Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Variatsionnaya_statistika_Shpo.doc
Скачиваний:
5
Добавлен:
28.09.2019
Размер:
336.38 Кб
Скачать

Билет 1

1. Понятие случайного события Явления, рассматриваемые с той точки зрения, осуществились они или не осуществились, называются событиями. Применительно к событиям ставится основная задача: предсказать, появится ли изучаемое событие при осуществлении некоторого наперед заданного комплекса факторов (явлений — причин). Событие, которое при заданном комплексе факторов обязательно произойдет называется достоверным. Событие, которое при заданном комплексе факторов не может произойти, называется невозможным событием. Суждения о достоверности или невозможности некоторого события являются категорическими суждениями. Такие суждения принято, считать окончательным результатом исследования. Событие, которое при заданном комплексе факторов может либо произойти, либо не произойти, называется случайным событием. Случайные события связаны с действием не вошедших в организованный комплекс факторов, называемых случайными факторами в отличие от другой группы факторов, включаемых в комплекс и называемых основными, или неслучайными.

2. Кластерный анализ объединяет различные процедуры, используемые для проведения классификации. В результате применения этих процедур исходная совокупность объектов разделяется на кластеры или группы (классы) схожих между собой объектов. Под кластером обычно понимают группу объектов, обладающую свойством плотности (плотность объектов внутри кластера выше, чем вне его), дисперсией, отделимостью от других кластеров, размером.

Сложность задач кластерного анализа состоит в том, что реальные объекты являются многомерными, то есть описываются не одним, а несколькими параметрами, и объединение объектов в группы проводится в пространстве многих измерений. Кроме того, данные могут носить нечисловой характер.

В агломеративных, или объединительных методах происходит последовательное объединение наиболее близких объектов в один кластер. Процесс такого последовательного объединения можно показать на графике в виде дендрограммы, или дерева объединения.

Обычно перед началом классификации данные стандартизуются (вычитается среднее и производится деление на корень квадратный из дисперсии). Полученные в результате стандартизации переменные имеют нулевое среднее и единичную дисперсию.

В методе k-средних объект относится к тому классу, расстояние до которого минимально. Расстояние понимается как евклидово расстояние, то есть объекты рассматриваются как точки евклидова пространства.

Билет 2

1. Вероятность случайного события. Для того чтобы выяснить, произойдет или не произойдет событие при заданном комплексе факторов, нужно провести испытание, в результате которого производят наблюдения. Предсказать результат единичного испытания можно только для достоверных или невозможных событий. Любое случайное событие по единичному испытанию было бы оценено как достоверное, если оно произошло, и как невозможное — если не произошло. Теория оценки случайных событий строится на большом числе испытаний. Важным условием при этом является неизменность комплекса основных факторов. События, происходящие при одном и том же комплексе факторов, называются однородными.

Пример. Предположим, мы подбрасываем монету. При этом событием будем считать выпадение герба. События с одинаковыми возможностями осуществления называются равновозможными. Так, при симметричной монете выпадение герба и цифры — равновозможны. если бы было произведено, например, 1000 бросаний, и из них 600 раз выпал герб, то для следующей серии испытаний можно было бы предсказывать, что герб появится в 60% случаев. Причем такое отклонение можно было бы считать связанным с несимметричностью монеты. Так, при бросании монеты 4, 12 и 24 тыс. раз частота появления герба соответственно равнялась 0,6080; 0,5016; 0,5005. Очевидно, что она здесь приближается к числу 0,5.

Вероятность является тем теоретическим пределом, к которому стремится частота событий при увеличении числа испытаний.

2. Дискриминантный анализ Цель дискриминантного анализа состоит в том, чтобы на основе измерения различных характеристик (признаков, параметров) объекта классифицировать его, то есть отнести к одной из нескольких групп (классов) некоторым оптимальным способом. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. Этот вид анализа является многомерным, так как измеряется несколько параметров объекта, по крайней мере, больше одного, например, температура, влажность в технологическом процессе, давление, состав крови, температура больного и т.д.

В медицине объектом исследования является пациент, когда по результатам измерений различных параметров, проведения диагностических тестов врач определяет, например, необходимо ли хирургическое вмешательство при лечении.

Билет 3

1. Основные теоремы теории вероятностей. Если некоторое событие может произойти при n испытаниях и а — число исходов, которые благоприятствуют наступлению события, а b — не благоприятствуют, то вероятность того, что событие произойдет, может быть определена как р=а/n. Вероятность того, что событие не произойдет, будет q=b/n. Сумма благоприятствующих и неблагоприятствующих случаев равна числу всех случаев, т. е. а+b=n. Разделив все члены этого равенства на п получим: а/n+b/n=1 или p+q=1, т. е. сумма вероятностей двух несовместных событий равна единице.

Сложение вероятностей. вероятность суммы двух несовместных (взаимоисключающих случайных) событий равна сумме их вероятностей.

Умножение вероятностей. Два события называются независимыми, когда наступление одного не оказывает влияния на наступление другого. Так, результат одного метания кости не влияет на результат следующего метания.

Вероятность сложного события т.е. наступления двух событий независимых одно от другого равна произведению вероятностей отдельных событий. Например, вероятность выпадения очка, а затем двух очков, при двух последовательных бросаниях кубиков, равна р==1/6*1/6=1/36.

2. Дисперсионный анализ с классификацией по двум признакам. Лучше показать дисперсионный анализ на компе. Дисперсионный анализ применим и при классификации по нескольким признакам. рассмотрим пример группировки по двум признакам (факторам), значимость которых проверяют. Имеем следующие результаты наблюдений X относительно влияния удобрений (В1 и В2) на почвах с разным качественным составом 1 и А2).

Проверяемые гипотезы:

Различаются ли значимо по своему эффекту на рост растений почвы А1 и А2? Различия этого рода, связанные с неотъемлемыми качественными факторами среды, в литературе о дисперсионном, анализе называют эффектом среды.

Значительно ли различен эффект двух удобрений В1 и В2? Различия, связанные с процессом производства, в данном случае с удобрением, называют эффектом обработки.

Влияют ли удобрения на рост растений в одинаковой мере на обоях почвах? выявляет взаимодействие, факторов АВ.

Билет 4

1. Биномиальное разложение и измерение вероятностей Если подбрасываются одновременно 2 монеты (а, b), то существуют 4 возможных случая выпадения герба Т и цифры Н:

аb аb аb аb

ТТ ТН НТ НН

В первом исходе имеем 2 герба. Принимая это за 2 благоприятных исхода, получим вероятность каждого из них р, а сложного события (ТТ) р*р=р2. В данном случае, при р=1/2 p2=l/4. Четвертый из возможных исходов НН представляет 2 неблагоприятных исхода с вероятностью q*q=q2=1/4. Каждый из двух других исходов является комбинацией одного благоприятного и одного неблагоприятного случаев. Вероятность каждого из этих исходов равна 1/4=pq=l/2*l/2, а обоих вместе ТН и НТ равна их сумме, т. е. q=1/2. Для рассматриваемого примера из двух событий имеем:

(р +q)2 = p2 + 2pq + q2. , При p = 1/2 получим (1/2+ 1/2)2= 1/4+ 1/2 + 1/4.

Если 3 монеты а, b, с подбрасываются одновременно, получим 8 возможных комбинаций: При 3 независимых событиях степень бинома равна 3.

Вероятности отдельных возможных исходов даются последовательными членами разложения: (р + q)3 = p3 + 3p2q + 3pq2 + q3.

Если число независимых случайных событий n, то вероятность благоприятных исходов равна последовательным членам разложения: (р + q)n

Если желаем получить вероятные численности разных исходов при данном числе испытаний n, применяем выражение: N(p+q)n.

Например, при числе испытаний N=200 и двух независимых событиях n в каждом испытании вероятные численности будут равны 200 (p+q)2=200(р2+2рq+q2). Если p=q=1/2, имеем последовательные вероятные численности: 50+100+50.

2. Критерий F–отношение дисперсий. Заключение о равенстве μ. нулевая гипотеза: Н0: μ1= μ2= ...= μ0 (средние групп одинаковы).

Для ответа на подобные вопросы Фишер предложил критерий — отношение дисперсий, распределение которого получено на основе случайных выборок из одной общей совокупности. получено теоретическое распределение F-критерия для разных уровней значимости и для различного числа степеней свободы. В таблицах приложений практически всех изданий по статистическим методам приведен 5%-ный уровень в распределении F.

При числе степеней свободы ν=3 и ν=20 имеем 5%-ный уровень критерия F=3,10. На основании сопоставления F, полученного в опыте, с табличными значениями можно сказать, если значение F больше, чем стандартное нулевая гипотеза Н0: μ1= μ2= ...= μ0 отвергается.

Билет 5

1. Биномиальное распределение Альтернативные, дискретно варьирующие признаки, как было показано в предыдущем параграфе, распределяются так, что вероятные численности их появления могут быть найдены по формуле бинома Ньютона.

Откладывая значения числа наступления благоприятных исходов m по оси абсцисс, а значения вероятных численностей — по оси ординат, получим многоугольник численностей распределения. Ломаная линия, соединяющая точки на графике, называется кривой распределения.в ероятность у события появиться m раз в п независимых испытаний Совокупность вероятностей при m= 1, 2, 3, ...n называется биномиальным распределением вероятностей. Биномиальное распределение определяется двумя параметрами: средней величиной μ=np и дисперсией или квадратическим отклонением .

2. Вычисление дисперсий В большинстве приложений дисперсионного анализа изучаемые варианты опыта (например, данные дозы удобрения) влияют на средние. Группы становятся выборками из различных совокупностей. Считается, что эти совокупности имеют различные средние μ, но общую дисперсию, не зависимую от вариантов опыта. При дисперсионном анализе средний квадрат для объектов оценивает σ2, как ранее было показано, но средний квадрат групповых средних оказывается преувеличенным в связи с различиями между μ.

Билет 6.

1. Нормальное распределение При приближении п к бесконечности график кривой приближается к симметричной кривой. Пределом такого приближения биномиального распределения является нормальное распределение. У равнение нормальной кривой выражает зависимость теоретических численностей f(x) или у от значений x — непрерывно распределяющейся случайной величины. Оно пишется в различных формах. Выражение, являющееся основной формой, относится к кривой с площадью, равной единице: В этом уравнении у — теоретические численности, выраженные в долях единицы, или вероятности случайного события x;  — квадратическое отклонение данного нормального распределения; — отклонение случайно распределенной величины X от средней арифметической , являющейся центром распределения величины X.

Для удобства расчетов отклонение переменной X от обычно выражают в единицах среднего квадратического отклонения . Выражение (X)/ называют нормированным отклонением, обозначим его буквой .

Тогда уравнение кривой нормального распределения в нормированной форме будет: Кривая, показывает, как плотности вероятностей (ординаты) растут до максимума в точке средней, и затем симметрично снижаются для значений у выше средней. наиболее вероятны те значения X, которые близки к . По мере удаления от значения X становятся все менее вероятными. Причем одинаковые по абсолютному значению, но противоположные по знаку отклонения значений переменной Х от равновероятны.

2. В большинстве приложений дисперсионного анализа изучаемые варианты опыта влияют на средние. Группы становятся выборками из различных совокупностей. Считается, что эти совокупности имеют различные средние μ, но общую дисперсию, не зависимую от вариантов опыта. При дисперсионном анализе средний квадрат для объектов оценивает σ2, но средний квадрат групповых средних оказывается преувеличенным в связи с различиями между μ. Вычисления: Дисперсия размытость Д= сумма (хi–мю)2/n-1;

Билет 7

1. Распределение редких событий (Пуассона)

Когда вероятности альтернатив неравны, т. е. р≠q, биномиальное распределение асимметрично. При очень малой вероятности ожидаемого события, исчисляемой сотыми или тысячными долями единицы, по сравнению с вероятностью q противоположного события распределение вероятности или частоты таких событий описывается формулой Пуассона.

Как известно, вероятность того, что в n испытаниях случайное событие наступит равно m раз, определяется формулой, выражающей функцию распределения вероятностей для биномиального распределения.

Примем теперь дополнительные условия, а именно, что вероятность р наступления случайного события в единичном испытании весьма мала, но число испытаний n весьма велико, n , а произведение nр (обозначим его λ) – число постоянное и не очень большое.

При таких дополнительных условиях на основе формулы биноминального распределения получим следующее выражение функция распределения вероятностей в распределении Пуассона. В этом выражении m – частота ожидаемого события в n испытаниях, λ=пр равен математическому ожиданию или наивероятнейшей частоте события, μ, а также дисперсии σ.

2. Сущность и метод дисперсионного анализа

В исследованиях часто приходится иметь дело не с двумя, а с большим числом выборок. Обычно эти выборки относятся к различным совокупностям. Например, это могут быть группы растений, получивших разные удобрения или уход, когда в опыте ставится цель статистически оценить эффект мероприятия.

В большинстве приложений дисперсионного анализа изучаемые варианты опыта (например, данные дозы удобрения) влияют на средние. Группы становятся выборками из различных совокупностей. Считается, что эти совокупности имеют различные средние μ, но общую дисперсию, не зависимую от вариантов опыта.

Билет 8

1. Средние величины Всякая средняя величина обладает тремя основными свойствами: срединным положением, абстрактностью (отвлечение от реально существующего разнообразия) и единством суммарного действия.

Средняя величина признака определяется различными способами в зависимости от объектов наблюдения, изучаемых признаков и целей исследования. Поэтому имеется не одна, а несколько средних: средняя арифметическая, средняя геометрическая, средняя квадратическая, средняя гармоническая, мода, медиана. Средняя величина какого-нибудь признака определяется для того, чтобы получить характеристику этого признака для всей изучаемой группы в целом.

По своему численному значению все средние величины занимают промежуточное положение между минимальным и максимальным значениями признака Например, если имеется пять значений признака: 1; 4; 5; 5; 5 со средней величиной =4, то при использовании этой средней предполагается, что разнородная группа заменена на однородную с одинаковыми значениями: 4; 4; 4; 4; 4. Вычисление средних величин необходимо вести таким образом, чтобы суммарное действие выравненных значений признака было бы равно суммарному действию первоначальных неусредненных значений.

2. Ошибка репрезентативности корреляционного отношения Еще не разработано точной формулы ошибки репрезентативности корреляционного отношения. В настоящее время можно использовать примерное значение ошибки не самого корреляционного отношения, а его квадрата η2: , где – ошибка квадрата корреляционного отношения; g – число классов первого признака (в верхней крайней строке корреляционной решетки); N — объем корреляционной решетки.

При использовании этой ошибки для определения критерия достоверности и доверительных границ квадрата корреляционного отношения вместо критерия Стьюдента следует брать преобразованный критерий Фишера (F), применяющийся в дисперсионном анализе как критерий достоверности показателей силы влияния. F – критерий достоверности квадрата корреляционного отношения, основанный на применении примерной формулы ошибки этого показателя.

Билет 9

1. Средняя арифметическая. Средняя арифметическая, обладая общими свойствами средних величин, имеет свои особенности, которые можно выразить следующими формулами: , т. е. сумма центральных отклонений равна нулю.

Это свойство средней арифметической используется для проверки правильности ее расчета.; , т.е. сумма условных отклонений (отклонений вариантов от любого значения, не равного средней) не есть нуль. Если же эту сумму распределить равномерно по всем вариантам, то полученная величина покажет, как сильно средняя арифметическая отличается от принятой в данном случае условной средней M. Это означает, что средняя арифметическая меньше данной условной средней на единицу, и, чтобы получить значение средней арифметической, надо по приведенной формуле к условной средней прибавить полученную поправку.

сумма квадратов центральных отклонений меньше суммы квадратов отклонений от любой другой величины.

Если к каждому значению признака прибавить постоянную величину a (или ее вычесть), то средняя арифметическая из измененных вариантов будет равна средней арифметической из первоначальных вариантов, увеличенных (или уменьшенных) на величину a.

2. Свойства корреляционного отношения Корреляционное отношение измеряет степень корреляции при любой ее форме. В отличие от коэффициента корреляции, который дает одинаковую меру связи признаков (первого со вторым и второго с первым), корреляционное отношение второго признака по первому обычно не бывает равно корреляционному отношению первого признака по второму:

Например, Связь урожая с количеством осадков или с температурой имеет характер односторонней зависимости: урожай связан с температурой воздуха, но температура воздуха не зависит от урожая.

Билет10

Применения средней арифметической. Пример. Три параллельных определения содержания гемоглобина в крови у одного и того же животного в одно и то же время, проведенные тремя разными лаборантами, дали такие результаты: 75; 80; 70. Наиболее вероятное содержание будет равно средней арифметической из параллельных проб:

В некоторых случаях при вычислении средней арифметической общая сумма значений признака делится не на число вариантов, а на другие величины. Среднюю из относительных величин можно рассчитывать двумя способами: как среднее отношение и как отношение средних (отношение сумм).

Средний ранг (непараметрическая средняя) определяется для таких признаков, для которых еще не найдены способы количественного измерения. По степени проявления таких признаков объекты могут быть ранжированы, т. е. расположены в порядке усиления (или ослабления) выраженности признака. Порядковый номер объекта в таком ряду называется его рангом.

2. Корреляционное отношение Корреляционное отношение измеряет степень криволинейных и прямолинейных связей. Криволинейная связь между признаками — это такая связь, при которой равномерным изменениям первого признака соответствуют неравномерные изменения второго, причем эта неравномерность имеет определенный закономерный характер.

При графическом изображении криволинейных связей, когда по оси абсцисс откладывают значения первого признака, а по оси ординат — значения второго признака и полученные точки соединяют, получают изогнутые линии.

Коэффициент корреляции не может характеризовать степень криволинейной связи. Используется величина корреляционное отношение (отношение сумм центральных отклонений 2-го признака по первому), она не может быть больше единицы и меньше нуля: этот показатель не может быть отрицательным.

Билет11

1. Взвешенная средняя арифметическая Обычно, чтобы рассчитать среднюю арифметическую, складывают все значения признака и полученную сумму делят на число вариантов. Иногда значения признака должны входить в сумму с неодинаковой поправкой. Эта поправка, выраженная определенным множителем, называется математическим весом значения. Средняя, рассчитанная для значений признака с неодинаковыми весами, называется взвешенной средней. Взвешенная средняя арифметическая рассчитывается по следующей формуле: , где Xi — значение признака, варианта;

p — математический вес усредняемого значения.

Чтобы рассчитать взвешенную среднюю арифметическую, необходимо каждое значение признака помножить на его вес, все эти произведения сложить и полученную сумму разделить на сумму весов.

2. Уравнение прямолинейной регрессии Коэффициент прямолинейной регрессии показывает, на сколько от своей средней отклоняется второй признак, если первый признак от своей средней отклонился на единицу измерения. Это можно выразить следующей формулой:

(X22)=R2/1 (X1- μ 1) Обозначая X1 через х, X2 через у, R1/2 через b и произведя необходимые преобразования этого выражения, можно получить рабочую формулу прямолинейной регрессии: y=a+bx По этой формуле, зная значение х (аргумент), можно определить значение у (функция) без непосредственного его измерения: нужно аргумент х помножить на коэффициент регрессии и к полученному произведению прибавить (или отнять) свободный член а.

На основе уравнения прямолинейной регрессии можно заранее рассчитать значение функции для каждого значения аргумента.

Билет 12

Средняя геометрическая Чтобы получить среднюю геометрическую для группы с n данными, нужно все варианты перемножить и из полученного произведения извлечь корень n-й степени:

,

где G – средняя геометрическая, n – число значений, ΠXn – произведение вариантов.

Если число значений больше двух, то извлечение корня n-й степени затруднительно, поэтому обычно значение средней геометрической находят путем логарифмирования величин, входящих в основную формулу:

.Для проверки правильности вычисления средней геометрической можно использовать принцип единства суммарного действия. Произведение всех пяти значений равно произведению пяти выравненных значений, равных средней геометрической:

Применяется средняя геометрическая во всех случаях, когда необходимо узнать или планировать средние приросты за определенный период. При расчетах среднего попериодного прироста возможны два способа применения средней геометрической.

2. Коэффициент прямолинейной регрессии. Прямолинейная корреляция отличается тем, что при этой форме связи каждому из одинаковых изменений первого признака соответствует вполне определенное и тоже одинаковое в среднем изменение другого признака, связанного с первым или зависящего от первого. Та величина, на которую в среднем изменяется второй признак, при изменении первого на единицу измерения, называется коэффициентом регрессии. Рассчитывается он по формуле:

, где R1/2 — коэффициент регрессии второго признака по первому; — среднее квадратическое отклонение второго признака, который изменяется в связи с изменением первого; 1 — среднее квадратическое отклонение первого признака, в связи с изменением которого изменяется второй признак; r12 — коэффициент корреляции между первым и вторым признаками.

Ошибка коэффициента регрессии равна ошибке коэффициента корреляции, умноженной на отношение сигм: .

Билет 13

Средняя квадратическая вычисляется по формуле: , Она равна корню квадратному из суммы квадратов данных, деленной на их число.

Употребляется средняя квадратическая при расчете средних радиусов окружностей.

Пример. Измерения диаметров колоний, полученных от посева микробов определенного вида, дали следующие результаты (в мм): 15; 20; 10; 25; 30.

Для сравнения этого посева с другими требуется определить средний диаметр колоний. Применив формулу средней квадратической, имеем

.

Средняя арифметическая диаметров:

дает неправильную характеристику группы. Это можно проверить по правилу единства суммарного действия.

2. Достоверность разности двух коэффициентов корреляции Достоверность разности коэффициентов корреляции определяется так же, как и достоверность разности средних, по обычной формуле

, где td —критерий достоверности разности коэффициентов корреляции;

d=r1-r2—разность коэффициентов корреляции;

—ошибка разности, равная корню квадратному из суммы квадратов ошибок обоих сравниваемых коэффициентов корреляции; ;

tst — стандартные значения критерия Стьюдента;

— число степеней свободы для разности коэффициентов корреляции, равное сумме чисел степеней свободы обоих коэффициентов: = n1–2 + n2–2=n1+ n2–4.

Билет 14.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]