
- •Статистическая обработка выборочных данных
- •230400.62 «Информационные системы и технологии»
- •Введение
- •Основные понятия
- •Требования безопасности труда
- •Технология выполнения работы Задача 1.
- •Задача 2.
- •Задача 3
- •Индивидуальные задания Задача 1
- •Задача 2
- •Содержание и оформление отчета
- •Вопросы для самоконтроля
- •Время, отведенное на выполнение работы
- •Литература
- •Содержание
- •Статистическая обработка выборочных данных
- •230400.62 «Информационные системы и технологии»
- •410054, Г. Саратов, ул. Политехническая, 77
Министерство образования и науки Российской Федерации
Саратовский государственный технический университет
Балаковский институт техники, технологии и управления
Статистическая обработка выборочных данных
Методические указания к выполнению практической работы
по дисциплине «Математическая статистика и прогнозирование»
для студентов всех форм обучения по направлению
230400.62 «Информационные системы и технологии»
Одобрено
редакционно-издательским советом
Балаковского института техники,
технологии и управления
Балаково 2015
Введение
Цель работы: научиться строить вариационные ряды и определять числовые характеристики выборки с использованием MS Excel.
Основные понятия
Генеральной совокупностью называется вся подлежащая изучению совокупность объектов (наблюдений).
Выборочной совокупностью (выборкой) называется совокупность случайно отобранных из генеральной совокупности объектов.
Объемом совокупности (выборочной или генеральной) называется число объектов в этой совокупности. Различные наблюдаемые значения признака хi называются вариантами. Числа ni, показывающие, сколько раз встречаются варианты в совокупности, называются частотами. Тогда объем выборки можно определить как n=∑ni. Отношение частоты к объему выборки wi=ni/n называется относительной частотой. Последовательность вариант, записанных в порядке возрастания или убывания с соответствующими им частотами (или относительными частотами), называется вариационным рядом. Вариационный ряд называется дискретным, если любые его варианты отличаются на постоянную величину, и непрерывным (интервальным), если его значения могут отличаться одно от другого на сколь угодно малую величину.
Пример 1. Выборка: X = (0; 2; 1; 2,6; 3,1; 4,6; 1; 4,6; 6; 2,6; 6; 7; 9; 9; 2,6). Расположим значения в порядке возрастания (0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9).
Дискретный вариационный ряд:
xi |
0 |
1 |
2 |
2,6 |
3,1 |
4,6 |
6 |
7 |
9 |
ni |
1 |
2 |
2 |
3 |
1 |
2 |
2 |
1 |
2 |
Интервальный вариационный ряд:
xi |
0-2,5 |
2,5-5 |
5-7,5 |
7,5-10 |
ni |
4 |
6 |
3 |
2 |
Группировка состоит в том, что область, куда попали значения x1,...,xn, разбивают на интервалы I1,...,Ik и подсчитывают частоту попадания значений величины в каждый интервал. Проще всего взять интервалы одинаковой длины. Число интервалов k следует брать не очень большим, чтобы после группировки ряд не был громоздким, и не очень малым, чтобы не потерять особенности распределения признака. Обычно берут от 6 до 11 интервалов. Согласно формуле Стерджесса рекомендуемое число интервалов
k = 1 + 3,322 lg n. (1)
Величину интервала h можно вычислить по формуле
(2)
где R = xmax – xmin – размах вариации (разность между наибольшим и наименьшим значением признака).
За начало первого интервала рекомендуется брать величину
х0 = xmin – 0,5h. (3)
Для наглядности представления вариационного ряда строят различные графики статистического распределения, в частности, полигон, гистограмму и кумуляту. Полигон, как правило, служит для изображения дискретного вариационного ряда, и представляет собой ломаную, в которой концы отрезков имеют координаты (xi, ni) или (xi, wi). Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или относительным частотам. При этом на оси абсцисс помещают значения признака, а на оси ординат - накопленные частоты или накопленные относительные частоты.
Гистограмма служит для изображения интервальных вариационных рядов и представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака (xi–1, xi), и высотами, равными частотам ni (или относительным частотам wi) интервалов. Если соединить середины верхних оснований прямоугольников отрезками прямой, то можно получить полигон того же распределения. Распределение признака в вариационном ряду по накопленным частотам () изображается с помощью кумуляты.
Пример 2. Построим полигон частот для вариационного ряда
xi |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
ni |
7 |
7 |
3 |
1 |
3 |
2 |
2 |
Рисунок 1 – Полигон частот
Пример 3. Построим кумуляту для вариационного ряда
xi |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
ni |
7 |
7 |
3 |
1 |
3 |
2 |
2 |
Находим накопленные частоты
xi |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
ni |
7 |
7 |
3 |
1 |
3 |
2 |
2 |
fi |
7 |
14 |
17 |
18 |
21 |
23 |
25 |
Рисунок 2 – Кумулята частот
Пример 4. Построим гистограмму для вариационного ряда
xi |
0-2,5 |
2,5-5 |
5-7,5 |
7,5-10 |
ni |
4 |
6 |
3 |
2 |
Рисунок 3 – Гистограмма
Числовые характеристики выборки.
Средней величиной называют показатель, который характеризует обобщенное значение признака или группы признаков в исследуемой совокупности.
Среднее
линейное отклонение
вычисляют для того, чтобы учесть различия
всех единиц исследуемой совокупности.
Эта величина определяется как средняя
арифметическая из абсолютных значений
отклонений от средней.
Дисперсия - средний квадрат отклонений индивидуальных значений признака от его средней величины.
Для вычисления среднего значения выборки и дисперсии интервальную таблицу выборки заменяют на дискретную. В качестве принимаемых значений указывают середины интервалов группировки. В таблице 1 приведены формулы, по которым в зависимости от описания данных выборки вычисляются среднее значение и разброс выборки.
Таблица 1
|
Вариационный ряд задан последовательностью |
Задана таблица частот вариационного ряда |
Задана таблица относительных частот вариационного ряда |
Среднее
значение выборки
|
|
|
|
Среднее линейное отклонение |
|
|
|
Дисперсия
(разброс) выборки
|
|
|
|
Среднее квадратическое отклонение – квадратный корень из дисперсии.
Коэффициент вариации представляет собой относительную меру рассеивания, выраженную в процентах. Он вычисляется по формуле:
,
(4)
где
- средняя величина, s
- среднее квадратическое отклонение.
Мода – это наиболее часто встречающийся вариант ряда. Модой для дискретного ряда является варианта, обладающая наибольшей частотой. При вычислении моды для интервального вариационного ряда необходимо сначала определить модальный интервал (по максимальной частоте), а затем – значение модальной величины признака по формуле:
(5)
где x0 – нижняя граница модального интервала,
h – величина интервала,
fm – частота модального интервала,
fm-1 – частота интервала, предшествующего модальному,
fm+1 – частота интервала, следующего за модальным.
Медиана – это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.
Для дискретного вариационного ряда медиана ищется по формуле:
(6)
При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем — значение медианы по формуле:
(7)
где: x0 – нижняя граница интервала, который содержит медиану,
h – величина интервала,
— сумма
частот или число членов ряда,
Sm-1 – сумма накопленных частот интервалов, предшествующих медианному,
fm – частота медианного интервала.