- •Гордеева ю.Л., Левченкова т.В.
- •Введение
- •1 Статистическое распределение и числовые характеристики выборки
- •1.1 Выборки и их характеристики
- •1.1.1 Выборочный метод и способы составления выборок
- •1.1.2 Статистическое распределение и его геометрическое изображение
- •Алгоритм составления дискретного статистического распределения:
- •1.1.3 Числовые характеристики вариационного ряда
- •1.2 Статистические оценки
- •1.2.1 Точечные оценки
- •1.2.2 Интервальные оценки
- •1.2.3 Доверительный интервал для оценки математического ожидания нормального распределения при известной дисперсии
- •1.2.4 Доверительный интервал для оценки математического ожидания при неизвестной дисперсии
- •1.2.5 Доверительный интервал для оценки среднего квадратического отклонения нормального распределения
- •1.3 Типовые задачи
- •Решение
- •Простая дисперсия
- •1.4 Вопросы для самопроверки
- •2 Элементы корреляционного анализа
- •2.1 Статистическая зависимость случайных величин. Уравнения регрессии
- •2.2 Корреляционная зависимость. Коэффициент корреляции
- •2.3 Типовые задачи
- •Решение
- •2.4 Вопросы для самопроверки
- •3 Варианты контрольной работы
- •Библиографический список
- •Содержание
1.1.2 Статистическое распределение и его геометрическое изображение
Статистическая информация – это ряд значений, записанных в той последовательности, в которой они были получены.
Количественный признак объекта генеральной совокупности обозначают X,Y,Z…
Соответствующие возможные значения признака – xi , yi , zi … (варианты).
Частота – это число fi объектов с одинаковыми количественными признаками.
Перечень вариант и соответствующих им частот называется статистическим распределением выборки или статистическим рядом.
Ряд, в котором значения случайной величины записаны в порядке возрастания или убывания, называется ранжированным.
Распределения могут быть дискретными (все значения изолированы друг от друга) и интервальными (все значения заполняют некоторый интервал).
Алгоритм составления дискретного статистического распределения:
1. Определяют наибольшее Хmax и наименьшее Хmin значения.
2. Ранжируют ряд.
3. Подсчитывают частоты каждого значения признака.
4. Составляют дискретный вариационный ряд в виде таблицы
Х |
x1 |
x2 |
… |
xn |
fi |
f1 |
f2 |
… |
fn |
Любое правило (таблица, функция, график), позволяющее находить вероятности отдельных значений случайной величины, называется законом распределения случайной величины.
Закон может быть задан в виде таблицы распределения
X |
x1 |
x2 |
… |
xn |
P |
p1 |
p2 |
… |
pn |
Дискретный вариационный ряд графически представляется полигоном распределения частот или относительных частот.
Интервальный вариационный ряд представляется в виде гистограммы и кумуляты.
Полигоном частот называют ломанную, отрезки которой соединяют точки с координатами (xi;fi).
Гистограммой
частот
называют ступенчатую фигуру, состоящую
из прямоугольников, основанием которых
служат частичные интервалы длины h,
а высоты равны частоте каждого интервала
или отношению
или
.
Если соединить середины верхних оснований прямоугольников отрезками прямой, то получится полигон того же распределения.
Гистограмма и полигон плотности относительных частот представлена на Рис 1.
Рис. 1
-плотность
относительных частот;
- длина соответствующего
интервала;
К=1+3,322ּlg(n) - количество классов (интервалов).
Плотность относительных частот f* показывает, какая доля объектов совокупности приходится на единицу интервала, и является эмпирической функцией распределения плотности.
Геометрическое представление эмпирической функции закона распределения F*(x) называется кумулятой или кумулятивной кривой (Рис. 2).
Рис. 2
Значения
вычисляются
по формуле
,
где
-
накопленная абсолютная частота признака.
1.1.3 Числовые характеристики вариационного ряда
Для того, чтобы количественно охарактеризовать самые существенные свойства распределения, а также для того, чтобы можно было сравнить разные распределения, вычисляют средние показатели - выборочные числовые характеристики.
В статистике используются различные величины в зависимости от того, какие цели при анализе материала ставит исследователь. Понятием средней величины пользуются в тех случаях, когда требуется определить средний надой по стаду, средний привес, средний прирост стада, средние клинические показатели деятельности сердца, лёгких, среднего состава крови и во многих других случаях.
Различают следующие виды средних величин: средняя арифметическая, средняя геометрическая, средняя квадратическая, средняя гармоническая, мода и медиана.
Наиболее распространенным видом средних величин является средняя арифметическая, которая бывает простой и взвешенной.
Возможны следующие случаи:
1. Результаты наблюдения не сведены в вариационный ряд или все частоты равны единице или одинаковы. Тогда вычисляют простую среднюю арифметическую
,
где хi – значение признака;
n– объём выборки.
2. Частоты fi отличны друг от друга, то есть значения признака хi повторяются. В этом случае вычисляют среднюю арифметическую взвешенную (выборочную среднею)
,
где k – число различных значений признака.
3. Распределение интервальное. В этом случае вместо хi берут середину интервалов
Математическим ожиданием М(Х) (или средним значением) дискретной случайной величины Х, имеющей закон распределения, называется число, равное сумме произведений всех её значений на соответствующие им вероятности.
Дисперсия
(или
D(X))
характеризует рассеяние значений
признака относительно выборочной
средней
.
Выборочная дисперсия Dв – это среднее арифметическое значение квадратов отклонения признака от выборочной средней.
Для её вычисления применяют формулу
.
В случае, если общее число вариант мало (n<30), лучше применять формулу
Исправленная дисперсия находится по формуле
Выборочное среднее квадратичное отклонение Sx находят по формуле
,
а исправленное выборочное среднее квадратичное отклонение S по формуле
.
Коэффициент вариации СV – это выборочное процентное отношение выборочного среднего квадратичного отклонения к выборочной средней
.
Коэффициент вариации показывает изменчивость признака.
Если Сv > 20% -изменчивость значительная; если 10% < Cv < 20%- средняя; если Cv < 10%- незначительная.
Коэффициент вариации позволяет сравнивать изменчивость признаков, имеющих разные единицы измерения.
В качестве описательных характеристик вариационного ряда используется медиана, мода, размах вариации (выборки) и т.д.
Размахом вариации называется число
R=Xmax - Xmin,
где Хmax – наибольший, Xmin – наименьший вариант ряда.
Медиана – это значение варианта, который делит ранжированный ряд на равные по числу вариант части.
Примеры.
1. Исходный ряд: 4 7 12 8 9
Ме = 12
2. Исходный ряд: 5 7 13 15
Ме =
Если признак Х представлен интервально, то медиана находится по медианному интервалу, в котором первая накопленная частота больше или равна n/2.
,
где
– нижняя граница медианного интервала
– шаг разбиения,
ширина класса
– накопленная
частота интервала, предшествующего
медианному интервалу
– абсолютная
частота медианного интервала.
Модой называется вариант, имеющий наибольшую частоту.
Класс с наибольшей частотой называется модальным.
Для определения моды интервальных рядов служит формула
,
где
- нижняя граница модального интервала
– ширина класса
– абсолютная
частота модального интервала
– абсолютная
частота интервала предшествующего
модальному
– абсолютная
частота интервала следующего за
модальным.
При изучении распределений, отличных от нормального, возникает необходимость количественно оценить это различие. Вводят специальные характеристики: асимметрию и эксцесс.
Для нормального распределения эти характеристики равны нулю.
Асимметрией теоретического распределения называют отношение центрального момента третьего порядка к кубу среднего квадрата отклонения.
Центральным моментом порядка k случайной величины X называется математическим ожиданием величины (X – M(X))k, обозначается через μk.
Таким образом, по определению
μk = M(X – M(X))k.
В частности, μ2 = D(X), то есть центральный момент 2-го порядка есть дисперсия
μ1 = M(X – M(X)) = 0
Для дискретной случайной величины
Среди моментов высших порядков особое значение имеют центральные моменты 3-го и 4-го порядков, называемых соответственно коэффициентами асимметрии и эксцесса.
Коэффициентом асимметрии ("скошенности") А случайной величины X называется величина
Выборочный коэффициент асимметрии служит для характеристики асимметрии полигона вариационного ряда. Если полигон асимметричен, то одна из ветвей его, начиная с вершины, имеет более пологий «спуск», чем другая.
Если А > 0, то кривая распределения более полога справа от М0(X) (Рис. 3),
если А < 0, то кривая распределения более полога слева от М0(X) (Рис. 4).
Геометрический смысл ассиметрии показывает на сколько не симметричен график распределения частот. Чем больше по модулю ассиметрия, тем больше не симметричен график.
Коэффициентом эксцесса ("островершинности") или коэффициентом крутости Е случайной величины X называется величина
Величина Е характеризует островершинность или плосковершинность. а также многовершмнность распределения.
Для нормального закона распределения А = 0 и Е = 0; остальные распределения сравниваются с нормальным.
Если Е>0 – более островершинные, а распределения "плосковершинные" или "многовершинные" имеют Е < 0 (Рис. 5).
Рис. 3
Рис. 4
Рис. 5
