Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
3
Добавлен:
27.11.2024
Размер:
784.11 Кб
Скачать

Министерство образования и науки Российской Федерации Саратовский государственный технический университет Балаковский институт техники, технологии и управления

СТАТИСТИЧЕСКАЯ ОБРАБОТКА ВЫБОРОЧНЫХ ДАННЫХ

Методические указания к выполнению практической работы по дисциплине «Математическая статистика и прогнозирование»

для студентов всех форм обучения по направлению

230400.62 «Информационные системы и технологии»

Одобрено

редакционно-издательским советом

Балаковского института техники,

технологии и управления

Балаково 2015

ВВЕДЕНИЕ

Цель работы: научиться строить вариационные ряды и определять числовые характеристики выборки с использованием MS Excel.

ОСНОВНЫЕ ПОНЯТИЯ

Генеральной совокупностью называется вся подлежащая изучению совокупность объектов (наблюдений).

Выборочной совокупностью (выборкой) называется совокупность случайно отобранных из генеральной совокупности объектов.

Объемом совокупности (выборочной или генеральной) называется число объектов в этой совокупности. Различные наблюдаемые значения признака хi называются вариантами. Числа ni, показывающие, сколько раз встречаются варианты в совокупности, называются частотами. Тогда объем выборки можно определить как n=∑ni. Отношение частоты к объему выборки wi=ni/n называется относительной частотой.

Последовательность вариант, записанных в порядке возрастания или убывания с соответствующими им частотами (или относительными частотами), называется вариационным рядом. Вариационный ряд называется дискретным, если любые его варианты отличаются на постоянную величину, и непрерывным (интервальным), если его значения могут отличаться одно от другого на сколь угодно малую величину.

Пример 1. Выборка: X = (0; 2; 1; 2,6; 3,1; 4,6; 1; 4,6; 6; 2,6; 6; 7; 9; 9;

2,6). Расположим значения в порядке возрастания (0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9).

Дискретный вариационный ряд:

xi

0

1

2

2,6

3,1

4,6

6

7

9

 

 

 

 

 

 

 

 

 

 

ni

1

2

2

3

1

2

2

1

2

 

 

 

 

 

 

 

 

 

 

Интервальный вариационный ряд:

2

xi

0-2,5

2,5-5

5-7,5

7,5-10

 

 

 

 

 

ni

4

6

3

2

 

 

 

 

 

Группировка состоит в том, что область, куда попали значения x1,...,xn, разбивают на интервалы I1,...,Ik и подсчитывают частоту попадания значений величины в каждый интервал. Проще всего взять интервалы одинаковой длины. Число интервалов k следует брать не очень большим,

чтобы после группировки ряд не был громоздким, и не очень малым,

чтобы не потерять особенности распределения признака. Обычно берут от

6 до 11 интервалов. Согласно формуле Стерджесса рекомендуемое число интервалов

k = 1 + 3,322 lg n.

(1)

Величину интервала h можно вычислить по формуле

 

 

 

 

=

 

,

(2)

1+3,322

где R = xmax xmin – размах вариации (разность между наибольшим и наименьшим значением признака).

За начало первого интервала рекомендуется брать величину

х0 = xmin – 0,5h.

(3)

Для наглядности представления вариационного

ряда строят

различные графики статистического распределения, в частности, полигон,

гистограмму и кумуляту. Полигон, как правило, служит для изображения дискретного вариационного ряда, и представляет собой ломаную, в которой концы отрезков имеют координаты (xi, ni) или (xi, wi).

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или относительным частотам. При этом на оси абсцисс помещают значения признака, а на оси ординат - накопленные частоты или накопленные относительные частоты.

3

Гистограмма служит для изображения интервальных вариационных рядов и представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака (xi–1, xi), и высотами,

равными частотам ni (или относительным частотам wi) интервалов. Если соединить середины верхних оснований прямоугольников отрезками прямой, то можно получить полигон того же распределения.

Распределение признака в вариационном ряду по накопленным частотам ()

изображается с помощью кумуляты.

Пример 2. Построим полигон частот для вариационного ряда

xi

6

7

8

9

10

11

12

 

 

 

 

 

 

 

 

ni

7

7

3

1

3

2

2

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Рисунок 1 – Полигон частот

 

 

 

 

 

 

 

 

 

 

Пример 3. Построим кумуляту для вариационного ряда

 

xi

6

7

8

9

10

11

12

 

 

 

 

 

 

 

 

 

 

ni

7

7

3

1

3

2

2

 

 

 

 

 

 

 

 

 

Находим накопленные частоты

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

6

7

8

9

10

11

12

 

 

 

 

 

 

 

 

 

 

ni

7

7

3

1

3

2

2

 

 

 

 

 

 

 

 

 

 

fi

7

14

17

18

21

23

25

 

 

 

 

 

 

 

 

 

4

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Рисунок 2 – Кумулята частот

 

 

 

 

 

 

 

 

 

 

Пример 4. Построим гистограмму для вариационного ряда

xi

0-2,5

2,5-5

5-7,5

7,5-10

 

 

 

 

 

ni

4

6

3

2

 

 

 

 

 

7

6

5

4

3

2

1

0

0-2,5

2,5-5

5-7,5

7,5-10

10-12,5

Рисунок 3 – Гистограмма

Числовые характеристики выборки.

Средней величиной называют показатель, который характеризует обобщенное значение признака или группы признаков в исследуемой совокупности.

Среднее линейное отклонение ̅вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности. Эта величина

5

определяется как средняя арифметическая из абсолютных значений отклонений от средней.

Дисперсия - средний квадрат отклонений индивидуальных значений

признака от его средней величины.

Для вычисления среднего значения выборки и дисперсии интервальную таблицу выборки заменяют на дискретную. В качестве принимаемых значений указывают середины интервалов группировки. В

таблице 1 приведены формулы, по которым в зависимости от описания

данных выборки вычисляются среднее значение и разброс выборки.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вариационный

 

 

Задана таблица

Задана таблица

 

 

 

 

 

 

 

 

 

 

 

 

 

частот

 

 

 

 

 

 

 

 

 

 

ряд задан

 

 

 

 

 

 

 

 

 

 

 

 

 

относительных частот

 

 

 

 

 

 

 

 

 

 

 

вариационного

 

 

 

 

последовательностью

 

 

вариационного ряда

 

 

 

 

 

 

 

 

 

 

 

 

ряда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Среднее

 

 

 

 

 

 

 

1

 

n

 

 

 

 

 

 

 

1

k

 

 

 

 

 

 

 

 

 

 

k

 

m j

 

 

 

 

 

 

значение

 

 

 

 

 

 

 

 

 

 

 

xi

 

 

 

 

 

 

 

 

 

 

x j m j

 

 

 

x j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n

 

 

 

 

 

 

 

 

выборки

x

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Среднее

 

 

 

 

 

 

 

 

 

∑| − ̅|

 

 

 

 

 

 

 

∑|

− ̅|

 

∑|

− ̅|

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

линейное

 

 

 

̅=

 

̅=

 

 

 

 

 

 

 

 

 

̅=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

отклонение ̅

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n

 

 

 

 

2

 

 

1

 

k

 

 

 

 

 

 

 

 

 

 

 

 

k

 

m j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2j m j

 

 

 

 

 

 

 

 

x2j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x i

 

 

 

 

 

 

 

2

 

 

x2

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

Дисперсия

x

 

 

 

 

 

 

 

n

 

 

 

n

 

 

 

 

n

 

 

 

 

 

(разброс)

 

 

 

 

i 1

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

1

 

 

k

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

m j

 

 

 

2

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

выборки S

 

 

 

 

 

 

 

2

 

 

 

2

 

 

 

 

(x j

 

 

 

 

 

 

 

(x j x)

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

x i x

 

 

 

 

n

x) m i

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Среднее квадратическое отклонение – квадратный корень из дисперсии.

Коэффициент вариации представляет собой относительную меру рассеивания, выраженную в процентах. Он вычисляется по формуле:

= ̅∙ 100%, (4)

где ̅- средняя величина, s - среднее квадратическое отклонение.

Мода – это наиболее часто встречающийся вариант ряда. Модой для дискретного ряда является варианта, обладающая наибольшей частотой.

6

При вычислении моды для интервального вариационного ряда необходимо сначала определить модальный интервал (по максимальной частоте), а

затем – значение модальной величины признака по формуле:

 

 

 

 

0

= 0

+

 

−1

(5)

( − −1)+( − +1)

 

 

 

 

где x0 – нижняя граница модального интервала, h – величина интервала,

fm – частота модального интервала,

fm-1 – частота интервала, предшествующего модальному, fm+1 – частота интервала, следующего за модальным.

Медиана – это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.

Для дискретного вариационного ряда медиана ищется по формуле:

 

 

+

+1

 

 

 

 

2

 

2

, если − четное

 

 

= {

 

 

2

 

 

(6)

 

,

если − нечетное

 

 

 

 

 

 

+1

 

 

 

 

 

 

 

 

2

 

 

 

 

При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем — значение медианы по формуле:

 

 

 

 

 

 

 

 

= +

2 −1

,

(7)

 

 

0

 

 

 

 

 

 

 

 

где: x0 – нижняя граница интервала, который содержит медиану,

h– величина интервала,

— сумма частот или число членов ряда,

Sm-1 – сумма накопленных частот интервалов, предшествующих медианному,

fm – частота медианного интервала.

7

ТРЕБОВАНИЯ БЕЗОПАСНОСТИ ТРУДА

При выполнении практической работы необходимо соблюдать общие правила техники безопасности:

использовать ПК только в соответствии с их назначением;

не размещать на корпусе ПК посторонние предметы (тетради,

книги, карандаши и т.п.);

оберегать ПК от толчков, ударов, сотрясений;

немедленно поставить в известность оператора ИВЦ об обнаружении задымления, загорания, пожара;

немедленно сообщить оператору ИВЦ обо всех неисправностях в работе ПК.

 

 

ТЕХНОЛОГИЯ ВЫПОЛНЕНИЯ РАБОТЫ

 

 

Имеются следующие результаты выборки:

 

 

 

 

4,2

5,84

7,56

9,25

9,97

4,31

4,72

8,02

9,26

10,07

4,39

5,94

8,21

9,48

10,16

4,58

6,12

8,54

9,56

10,17

4,67

6,36

8,65

9,61

10,25

5,92

6,37

8,69

9,68

10,28

4,98

6,98

8,84

9,84

10,28

5,34

7,25

8,97

9,87

11,24

5,38

7,52

9,01

9,92

11,32

5,68

7,56

9,12

9,94

11,34

Определите числовые характеристики выборки, используя MS Excel.

1.Введите в диапазон А2:А51 – выборочные данные. В ячейке С2 с

помощью функции СЧЕТ определите количество элементов в выборке.

2.В ячейках D2, E2 с помощью функций МИНИМУМ, МАКСИМУМ определите наименьшее и наибольшее значения. В ячейке F2 вычислите

размах вариации: R xmax xmin .

3. Вычислите количество интервалов по формуле Стерджесса. Для этого в ячейку G2 введите формулу: 1+3,322*LOG(B13) и округлите полученное значение до целого числа.

8

4.В ячейке H2 вычислите ширину интервала по формуле =F2/G2 и

округлите число до целого в большую сторону.

5.В ячейке I2 вычислите нижнюю границу первого интервала по формуле =D2-0,5*H2.

Результаты вычислений представлены на рисунке 4.

Рисунок 4 - Данные для группировки

6. Определите границы интервалов. В ячейку К2 введите формулу для вычисления верхней границы первого интервала =$H$2+I2. В ячейку К3

введите формулу =K2+$H$2 и скопируйте ее в следующие ячейки до тех пор, пока не получите значение, большее xmax.

7. Заполните столбец абсолютных частот. Так как используемая функция ЧАСТОТА задается в виде формулы массива, то выделите блок ячеек L2:L9 и вызовите МАСТЕР ФУНКЦИЙ (кнопка fx). В появившемся диалоговом окне МАСТЕР ФУНКЦИЙ выберите категорию СТАТИСТИЧЕСКИЕ и функцию ЧАСТОТА, после чего нажмите кнопку

9

ОК. В появившемся диалоговом окне ЧАСТОТА указателем мыши в рабочее поле МАССИВ_ДАННЫХ введите диапазон данных наблюдений

(А2:А51), в рабочее поле МАССИВ_ИНТЕРВАЛОВ мышью введите диапазон интервалов (К2:К9). Нажмите комбинацию клавиш Ctrl+Shift+ Enter. В ячейках L2:L9 появится массив абсолютных частот.

8. В ячейке L10 найдите сумму полученных значений. Найденная сумма должна быть равна общему числу наблюдений (50).

9. Заполните столбец относительных частот. В ячейку M2 введите формулу для вычисления относительной частоты: =L2/$L$10 и скопируйте её в диапазон М3:М9.

10. Заполните столбец накопленных частот. В ячейку N2 скопируйте значение частоты из ячейки L2.В ячейку N3 введите формулу: =N2+L3 и

скопируйте её в диапазон N4:N9.

11. Найдите выборочное среднее. Для этого сначала найдите середины интервалов и запишите их в диапазон ячеек O2:O9. В ячейку Р2 введите формулу =O2*L2 и скопируйте ее на диапазон Р3:Р9. В ячейке Р10

определите сумму полученных значений. В ячейке L12 вычислите среднее значение по формуле =P10/C2.

12. Вычислите среднее линейное отклонение. Для этого в ячейку Q2

введите формулу =ABS(O2-$L$12) и скопируйте ее на диапазон ячеек Q3: Q9. В ячейке Q10 вычислите сумму полученных значений. В ячейке L13

определите среднее линейное отклонение по формуле =Q10/C2.

13. Найдите выборочную дисперсию. Для этого в ячейку R2 введите формулу =L2*(Q2^2) и скопируйте ее на диапазон ячеек R3:R9. В ячейке

R10 вычислите сумму полученных значений. В ячейке L14 определите дисперсию по формуле =R10/C2.

14. В ячейке L15 определите среднее квадратическое отклонение по формуле =КОРЕНЬ(L14).

10