Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Обработка данных на компьютере.doc
Скачиваний:
4
Добавлен:
01.05.2019
Размер:
216.58 Кб
Скачать

1. Группировка данных

Весь размах варьирования (Xmax–Xmin) разбивается на несколько интервалов (групп, классов). Как правильно задать их число? Это не такой простой вопрос, как кажется с первого взгляда.

Выбор слишком большого числа классов приведет к тому, что при малой выборке в некоторые группы попадет слишком мало наблюдений. Из теоретических соображений необходимо, чтобы в каждую группу попало не менее 5 наблюдений (или хотя бы не менее 5% объема выборки; для N = 49 m> N/20  2,5 , т.е. в каждую группу должно попасть не менее 3-х наблюдений). Обычно малонасыщенные интервалы объединяются с наиболее насыщенным соседом (тогда интервалы оказываются разной ширины). При объединениях число интервалов сокращается. Кроме этого, принятое число интервалов также сокращается после удаления, так называемых, выбросов. Очень часто крайние группы отделены от основной массы наблюдений несколькими пустыми интервалами. Причиной появления далеко отклоняющихся значений могут быть элементарные описки – пропущена десятичная запятая, перепутаны близкие по начертанию цифры (например, 3 и 8), набраны лишние цифры. Могут быть и другие причины, но во всех этих случаях делается вывод о том, что такие резко отклоняющиеся наблюдения (выбросы) не принадлежат изучаемой совокупности и должны быть удалены. При удалении выбросов, сокращаются также все крайние пустые интервалы.

С другой стороны, слишком малое число классов не дает возможности достоверно определить вид закона распределения. Во всяком случае, после всех укрупнений окончательное число классов должно быть не меньше 4-х.

Известна формула, по которой для заданного объема выборки вычисляют подходящее число классов. Мы не видим необходимости в применении этой формулы, поскольку имеются еще некоторые ограничения на выбор ширины интервалов (шага h). Дело в том, что для удобства пользования таблицей сгруппированных данных и ее графическим представлением (гистограммой) границы интервалов не могут быть какими угодно, а должны определяться требованиями ГОСТ (ДСТУ). Согласно этим требованиям, шаг h с точностью до сомножителя 10 может принимать одно из трех значений: 1, 2, 5, а границы интервалов должны быть кратны выбранному шагу. Приведенных выше условий уже достаточно для определения числа классов и их ширины (шага).

В нашем примере N=49; Xmax=12; Xmin=7,5; Xmax–Xmin=4,5.

Принимаем начальное число классов равным десяти k=10. Тогда получаем ширину интервалов h=4,5/10=0,45. Наиболее близкое допустимое по ГОСТ значение h=0,5, а если при таком шаге получится много малонасыщенных интервалов, то h=1. Здесь выбора практически нет.

Границы классов должны быть кратны шагу, в том числе и их крайние значения. Максимальное значение Xmax округляем вверх, а минимальное значение Xmin округляем вниз до ближайших значений, кратных шагу h. В нашем примере оба предельных значения (и максимальное, и минимальное) уже кратны шагу h=0,5, иными словами, оба предельных значения попали на края интервалов. К какому же интервалу следует отнести наблюдения, которые попали на его край? По этому поводу имеется две прямо противоположных рекомендации, и нам надо выбрать одну из них. В российско-украинской научной литературе принято определение интегральной функции распределения как F(x) = P(X<x), и из этого определения следует, что данные, попадающие на края интервалов, надо относить к правому (большему) интервалу. В англо-американской научной литературе принято несколько иное определение интегральной функции распределения F(x) = P(X≤x), откуда следует, что наблюдения, попадающие на края интервалов, надо относить к левому (меньшему) интервалу. Обе рекомендации абсолютно равноправны и имеют одинаковые недостатки. Наш выбор англо-американской рекомендации обусловлен только тем, что эта рекомендация реализована в программных статистических продуктах Statistica, Statgraphics, Excel, разработанных американскими фирмами. Согласно принятой англо-американской рекомендации Xmin следует округлять вниз до ближайшего кратного h всегда (по российско-украинской рекомендации всегда надо округлять вверх Xmax). Первоначальное значение Xmin=7,5 уже кратно шагу h=0,5; все-равно округляем его вниз до следующего меньшего значения Xmin=7 и получаем число классов k=(Xmax–Xmin)/h=(12–7)/0,5=10 (при выборе h=1 получаем k=5). Выпишем границы классов: 7 – 7,5 – 8 – 8,5 – 9 – 9,5 – 10 – 10,5 – 11 – 11,5 – 12.

Саму группировку данных (определение частот попадания случайной величины в заданные интервалы) можно поручить Excel (используя надстройку «Анализ данных»), или же сделать это самому (естественно, в среде Excel). Опишем оба приема, но сразу же обоснуем, почему не выгодно пользоваться автоматической группировкой. Анализ данных, как правило, представляет собой маленькое научное исследование. Мы можем пожелать повторить расчеты с другим шагом, с другим началом отсчета, вообще заменить данные; при этом все результаты, включая графики, должны изменяться сразу. Но при автоматической группировке весь анализ каждый раз надо проводить заново; кроме того, есть некоторые претензии к графикам, которые выводятся надстройкой «Анализ данных».

Итак, рассмотрим надежный универсальный прием группировки. Принимаем шаг группировки h=0,5 и начало отсчета х0=7 (возможно, эти числа впоследствии придется заменить на другие).

Вычисляем для каждого наблюдения номер класса, к которому оно относится, по формуле =ОКРУГЛВВЕРХ(Х/h;0). Фактически формулу набираем только для первого значения таблицы данных Х=7,83, для остальных значений формула копируется в таблице такого же размера. Естественно, для того, чтобы при копировании не изменялось значение h, надо указывать абсолютную ссылку на эту переменную (после набора адреса h следует нажать клавишу F4, тогда элементы указанного адреса будут зафиксированными знаками $).

Исходные данные (Х) Номера классов

7,83

9,67

11,17

9,92

9,25

9,67

9,67

16

20

23

20

19

20

20

10,42

8,17

8,17

8,92

11,17

10,00

11,17

21

17

17

18

23

20

23

7,50

9,92

9,67

8,50

8,83

9,50

9,25

15

20

20

17

18

19

19

9,00

9,25

10,42

9,25

9,25

8,83

10,83

18

19

21

19

19

18

22

12,00

10,00

10,42

8,17

12,00

9,83

10,42

24

20

21

17

24

20

21

9,25

7,50

8,17

10,83

8,17

10,42

9,67

19

15

17

22

17

21

20

7,50

9,25

9,50

10,00

10,00

11,00

9,25

15

19

19

20

20

22

19

Теперь функцией =СЧЕТЕСЛИ(Номера_классов;ОКРУГЛВВЕРХ(х/h;0)) определяем частоты в каждом классе по его центру х=(Х1+Х2)/2 (здесь Х1 и Х2 – левые и правые границы интервалов). Для того, чтобы при копировании не изменялись адреса диапазона Номера_классов и шага h, надо при наборе этих адресов нажать клавишу F4 (адреса не надо набирать вручную, их надо указывать мышкой).

Составляем таблицу:

Х1

Х2

х

m

0

6,5

7

6,75

0

1

7

7,5

7,25

3

2

7,5

8

7,75

1

3

8

8,5

8,25

6

4

8,5

9

8,75

4

5

9

9,5

9,25

10

6

9,5

10

9,75

12

7

10

10,5

10,25

5

8

10,5

11

10,75

3

9

11

11,5

11,25

3

10

11,5

12

11,75

2

11

12

12,5

12,25

0

Левая граница Х1 первого интервала (=1) выделена в таблице полужирным курсивом; это значение х0=7 и шаг h=0,5 могут быть изменены. Остальные границы генерируются автоматически через принятый шаг. К 10-и запланированным интервалам добавлены слева и справа пустые интервалы (их номера =0 и =k+1=11). Центры интервалов обозначены через х. В последней колонке функцией СЧЕТЕСЛИ подсчитаны частоты m.

В списке функций статистических функций Excel есть функция диапазонов ЧАСТОТА, которая не требует предварительного определения номеров классов и последующего подсчета частот. Для ее применения следует: 1) выделить будущий диапазон частот; 2) не снимая выделения, вызвать функцию ЧАСТОТА; 3) заполнить ее поля ввода – протянуть мышкой по диапазону исходных данных Х (1-й массив) и протянуть мышкой по диапазону правых границ интервалов X2 (2-й массив); 4) нажать одновременно три клавиши Ctrl+Shift+Enter или Ctrl+Shift+ОК (кнопка ОК на панели функции нажимается мышкой).

Однако было замечено, что иногда функция ЧАСТОТА приводит к иному распределению частот, чем другими способами группировки. Мы выяснили причину этого на первый взгляд непонятного эффекта. Функция ЧАСТОТА производит точные сравнения наблюдений с правыми границами интервалов, которые мы сгенерировали от начального значения через равный шаг. Но известно, что результаты арифметических операций могут отличаться от точных на очень малую величину – на, так называемый, машинный нуль. Именно из-за этого некоторые наблюдения, попадающие на края интервалов, функция ЧАСТОТА ошибочно относит к соседним классам. Избавиться от выявленного неприятного эффекта достаточно просто – надо округлить все правые границы интервалов, например, до шестого знака после десятичной запятой (машинный нуль еще меньше). После указанного уточнения использование функции ЧАСТОТА становится наиболее удобным способом.

Рассматривая таблицу частот, замечаем неоправданные провалы в интервалах № 3, № 6 и № 9. Кроме того, в последний интервал № 10 попало всего 2 наблюдения (при минимально допустимом значении 3). Перейдем к более крупному шагу h=1. Таблица частот тут же пересчитывается:

Х1

Х2

х

m

0

6

7

6,5

0

1

7

8

7,5

4

2

8

9

8,5

10

3

9

10

9,5

22

4

10

11

10,5

8

5

11

12

11,5

5

6

12

13

12,5

0

Число укрупненных интервалов теперь равно k = 5, что вполне допустимо.

Теперь рассмотрим, как производится группировка с помощью надстройки «Анализ данных». Если надстройка установлена, в меню Сервис должен быть соответствующий пункт, иначе надстройку надо сначала установить. Итак, выбираем в меню Сервис пункт Анализ данных, подпункт Гистограмма. Далее заполняем поля ввода процедуры Гистограмма:

З десь Входной интервал – диапазон исходных данных Х, Интервал карманов – диапазон правых границ интервалов X2, Выходной интервал – левый верхний угол таблицы из двух столбцов. Ниже приведен образец вывода результатов работы процедуры Гистограмма:

Карман

Частота

7

0

8

4

9

10

10

22

11

8

12

5

13

0

Еще

0

Малопонятное слово Карман можно впоследствии заменить на X2 (или другое обозначение). Если на панели функции поставить флажок   Метки и в качестве Интервала карманов указать диапазон правых границ интервалов вместе с заголовком, то этот заголовок и будет выведен вместо слова Карман.

Еще раз отметим, что результаты работы надстройки «Анализ данных» не модифицируются при изменении данных или параметров группировки.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]