
- •Методическая разработка для проведения лекции
- •Рассмотрена на заседании кафедры прикладной математики и информационных технологий
- •Санкт-Петербург
- •I. Учебные цели
- •II. Воспитательные цели
- •III. Расчет учебного времени
- •IV. Учебно-материальное обеспечение
- •V. Методические рекомендации преподавателю по подготовке к проведению лекции
- •VI. Литература, рекомендованная преподавателю Основная: Основная:
- •Дополнительная:
- •VII. Приложение
- •1. Определение объема выборки
- •Точечные и интервальные оценки вариационного ряда
- •3. Характеристики вариационного ряда
- •4. Измерение вариации признака
- •5. Статистические критерии согласия
Точечные и интервальные оценки вариационного ряда
Оценки вариационного ряда могут быть:
- точечными;
- интервальными.
Точечной называют оценку, определяемую одним числом.
При выборке малого объема точечная оценка может существенно отличаться от оцениваемого параметра, и, как следствие, приводит к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками.
Интервальной называют оценку, определяемую двумя числами – концами интервала.
Интервальная оценка, в отличие от точечной, позволяют установить:
- точность оценок;
- надежность (доверительную вероятность) оценок.
Точностью оценки называют некоторое положительное число δ, с помощью которого можно определить абсолютную величину разности между действительным значением неизвестного параметра R и найденной по данным выборки статистической характеристикой (R*), служащей оценкой этого неизвестного параметра R. То есть если δ > 0 и |R – R*| < δ, то, чем меньше δ, тем оценка точнее.
Однако статистические методы не позволяют категорически утверждать, что оценка R* удовлетворяет неравенству |R – R*| < δ. Можно говорить лишь о некоторой вероятности γ, с которой это неравенство выполняется.
Поэтому при интервальной оценке вводят понятие надежности (доверительной вероятности) оценки.
Надежностью (доверительной вероятностью) оценки R по R* называют вероятность γ, с которой осуществляется неравенство |R – R*| < δ.
Обычно надежность оценки задается наперед, причем в качестве γ берут значение, близкое к 1 (обычно это: 0,95; 0,99; 0,999).
Пусть вероятность того, что |R – R*| < δ, равна γ:
P[|R – R*| < δ] = γ.
Если в этом соотношении заменить неравенство |R – R*| < δ равносильным ему двойным неравенством:
- δ<R – R* < δ, или R* - δ < R< R* + δ, то получаем:
P[R* - δ < R< R* + δ]= γ.
Полученное соотношение следует понимать так:
- вероятность того, что интервал (R* - δ , R* + δ) заключает в себе (покрывает) неизвестный параметр R, равна γ.
Интервал (R* - δ , R* + δ), покрывающий неизвестный параметр с заданной надежностью γ называют доверительным интервалом.
Интервал (R* - δ , R* + δ) имеет случайные концы (их называют доверительными границами). В разных выборках получаются различные значения R*, следовательно от выборки к выборке будут изменяться и концы доверительного интервала, то есть доверительные границы сами являются случайными величинами – функциями от x1, x2,…,xn.
А так как случайной величиной является не оцениваемый параметр R, а доверительный интервал, то правильнее будет говорить не о вероятности попадания R в доверительный интервал, а о вероятности того, что доверительный интервал покроет R.
2.1. Пример построения вариационного ряда при дискретной и непрерывной вариации.
Основные черты социальных и социально-правовых систем - это случай и время, то есть они развиваются во времени отчасти при непредсказуемом поведении их элементов.
Как мы уже знаем, изучение уголовно-правовых массовых явлений начинается со сбора статистических данных, то есть со статистического наблюдения.
Также нам известно, что полученный в результате наблюдения первичный материал подвергается в дальнейшем группировке, то есть равносоставную массу элементов разделяют по тому или иному признаку на однородные группы.
Пусть в качестве изучаемого признака (X) совокупности лиц, осужденных за тяжкие телесные повреждения, взят возраст.
Анализ возрастных способностей названной группы применительно к 55 осужденным дал следующие результаты:
16, 22, 20, 19, 18, 24, 21, 17, 23, 18,
19, 16, 22, 18, 23, 20, 19, 22, 20, 19,
20, 18, 21, 18, 19, 24, 17, 16, 23, 19,
25, 21, 20, 18, 19, 22, 20, 18, 17, 21,
19, 20, 23, 25, 22, 20, 17, 24, 19, 17,
21, 18, 19, 21, 26
На основе полученного статистического наблюдения может быть составлен следующий вариационный ряд (таблица 1):
Таблица 1.
Возраст в годах , xi |
16 |
17 |
18 |
19 |
20 |
21 |
22 |
23 |
24 |
25 |
26 |
Число осужденных, ni |
3 |
5 |
8 |
10 |
8 |
6 |
5 |
4 |
3 |
2 |
1 |
Объем выборки n = 55.
Изменение (вариация) признака может быть:
- дискретной;
- непрерывной.
При дискретной вариации значения признака отличаются друг от друга на некоторое (обычно целое) число, например:
- число судимостей;
- число сообщений о происшествиях, поступивших в дежурную часть;
- число эпизодов в уголовном деле и др.
При непрерывной вариации значения признака могут отличаться на сколь угодно малую величину, например:
- время достижения патрульной группой места происшествия;
- процент выполнения нормы выработки на предприятиях исправительно-трудовых учреждений (ИТУ) и др.
При непрерывной (а часто и при дискретной) вариации разделение признака называется интервальным, то есть частоты относятся не к отдельному значению признака, а к некоторому интервалу, например, вариационный ряд распределения работающих в ИТУ по норме выработки (таблица 2):
Таблица 2.
Выполнение норм выработки в ИТУ (интервалы), % |
65-70 |
70-75 |
75-80 |
80-85 |
85-90 |
90-95 |
95-100 |
100-105 |
105-110 |
110-115 |
Число работающих, ni |
68 |
81 |
95 |
120 |
88 |
77 |
64 |
45 |
33 |
25 |
Объем выборки n = 696.
Вариационные ряды могут быть и с одинаковыми и неодинаковыми интервалами.
От выбора интервала во многом зависят результата последующего анализа:
- при чрезмерно зауженном интервале начинает значительно сказываться случайность наблюдений, различные «шумовые» эффекты;
- при неоправданном расширении интервала нивелируются важные особенности наблюдаемого социально-правового явления.
От этих неприятных последствий уходят путем выбора интервала по формуле:
(1)
где: xmax - xmin – размах вариации, характеризующий разность между наибольшей и наименьшей вариантами;
n – объем выборки.
Для данных таблицы 1 получаем величину интервала k = 1,3; а для данных таблицы 2 k = 3,8.
Полученные значения близки к выбранным, то есть к интервалам 1 и 5 соответственно.