Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методические указания по компьютерной обработке...doc
Скачиваний:
33
Добавлен:
09.11.2019
Размер:
975.87 Кб
Скачать

Первичная обработка статистических данных

Любое статистическое исследование включает в себя три стадии:

1) статистическое наблюдение;

2) первичная обработка и группировка результатов наблюдения;

3) анализ полученных сводных материалов.

Прохождение каждой стадии исследования связано с использованием специальных методов.

Для 1– ой стадии характерен метод массовых наблюдений, представляющий собой научно организованный сбор сведений об изучаемых явлениях и процессах. Результатом статистического наблюдения являются первичные отчётные данные, характеризующие каждую единицу наблюдения.

Для того чтобы сделать данные наблюдения более наглядными и упростить их дальнейший анализ, необходимо эти данные определённым образом обработать. Такая обработка происходит на 2–ой стадии статистического исследования – это упорядочение и группировка статистических данных. Важнейшим специфическим методом этой стадии является метод группировок. На этой стадии получают учётно– оценочные показатели.

На 3–ей стадии производится статистический анализ показателей. Здесь применяется весь арсенал статистических методов, выбор которых зависит от поставленных задач и особенностей первичной информации. К ним относятся:

  • абсолютные, относительные и средние величины;

  • показатели вариации и формы распределения признака;

  • выборочный метод;

  • корреляционно– регрессионный метод;

  • ряды динамики;

  • индексы.

При применении этих методов исчисляют аналитические показатели.

Упорядочение данных наблюдения заключается в их ранжировании, то есть расположении значений изучаемых признаков в порядке возрастания или убывания.

В Excel упорядочение данных осуществляется следующим образом:

1. Осуществляется процесс ввода исходных данных с клавиатуры в определённый диапазон ячеек (например А1: А200);

2. Создаётся копия неупорядоченных данных (например в диапазоне В1:В200) на случай, если исходная неупорядоченная информация может потребоваться при дальнейших исследованиях: выделяется диапазон ячеек А1: А200 и с помощью команд Копировать и Вставить на панели инструментов Стандартная данные перемещаются в столбец В;

3. Нажатием кнопки Сортировка по возрастанию или Сортировка по убыванию, находящихся на панели инструментов Стандартная, происходит упорядочение копии исходных данных.

Дальнейшая обработка информации, уже дающая достаточно ясное представление об основных закономерностях распределения данных наблюдения, заключается в объединении единиц изучаемой совокупности в группы по определённым существенным для них признакам. В результате такой группировки получают ряды распределения. Excel предусматривает построение вариационных рядов распределения, т.е. рядов, построенных по количественному признаку. При проведении группировки следует учитывать вид группировочного количественного признака: непрерывный или дискретный.

Для группировки по непрерывному количественному признаку в Excel используются два способа: способ равных интервалов и способ равных частот.

Группировка данных способом равных интервалов осуществляется следующим образом:

1. Определяют число интервалов группировки и длину (размер) интервала группировки;

2. Задают значение нижней границы первого интервала группировки (как правило, принимая её равной ;

3. С помощью формулы , вычисляют границы интервалов группировки;

4. Подсчитывают групповые частоты попадания данных наблюдения в каждый интервал группировки;

5. Составляют итоговую таблицу результатов группировки– таблицу частот.

В Excel для группировки данных используются процедура Гистограмма, входящая в Пакет анализа, и встроенная статистическая функция ЧАСТОТА.

Для доступа к процедуре Гистограмма необходимо:

  • в меню Сервис выделить строку Анализ данных;

  • в открывшемся диалоговом окне Анализ данных выделить процедуру Гистограмма и щёлкнуть на кнопке ОК;

  • в появившемся диалоговом окне Гистограмма заполнить элементы управления:

– поле ввода Входной интервал. В это поле вводится ссылка на диапазон ячеек (входной диапазон), содержащий статистические данные, подлежащие обработке. Входной диапазон может быть столбцом или строкой (в нашем примере А1:А200);

– поле ввода Интервал карманов. В это поле вводится ссылка на диапазон ячеек, содержащих верхние границы интервалов группировки (карманов). Граничные значения должны быть записаны в порядке их возрастания. Процедура подсчитывает число единиц совокупности, удовлетворяющих условию , где – границы -го интервала группировки ( -го кармана). в первый интервал записывается число единиц совокупности, меньших или равных верхней границе этого интервала. Если в совокупности имеются единицы, превышающие максимальное граничное значение , процедура подсчитывает число таких единиц и выводит это число в строке еще таблицы результатов.

Заполнение поля ввода Интервал Карманов не обязательно. Если это поле не заполнено, процедура сама вычисляет число интервалов группировки (карманов) и делит отрезок на интервалы одинаковой длины . В Excel число интервалов группировки вычисляется по формуле , где – целая часть числа .

– флажок Парето (отсортированная гистограмма). Флажок устанавливается в тех случаях, когда необходимо расположить интервалы группировки в порядке убывания групповых частот этих интервалов. Отсортированные данные образуют дополнительные столбцы таблицы результатов решения. Если флажок снят, то отсортированные результаты в выходной интервал не выводятся;

– флажок Интегральный процент. Этот флажок устанавливается в том случае в том случае, когда необходимо вычислить накопленные частости и построить полигон накопленных частостей. Частости выражаются в процентах, а полигон накопленных частостей выводится на тот же график, на котором изображена гистограмма;

– флажок Вывод графика. Устанавливается в тех случаях, когда необходимо вывести графики (гистограмму и полигон накопленных частостей). Графики выводятся на тот же лист, на который выведена таблица результатов решения.

Назначение поля ввода флажка Метки и группы переключателей Выходной интервал/Новый рабочий лист/Новая книга рассмотрено на стр. 8-9.

Выведенная на экран гистограмма весьма невыразительна и перегружена ненужными деталями. Для того чтобы сделать её более наглядной нужно:

  1. Активизировать гистограмму, щёлкнув по ней левой клавишей мыши.

На рамке, обрамляющей гистограмму, появятся восемь чёрных квадратиков, а в строке меню появится новый пункт Диаграмма.

  1. Помесить указатель мыши на чёрный квадратик, расположенный в середине нижней границы гистограммы (при этом указатель превратится в двойную стрелку), и, нажав левую клавишу мыши, передвинуть эту границу до уровня нижней кромки таблицы результатов.

  2. Убрать ненужные детали оформления гистограммы, такие как легенда Частота, названия осей Карман и Частота. Для этого щёлкнуть по удаляемому элементу и нажать клавишу Delete.

Эти действия заметно увеличат область построения гистограммы.

  1. Двойным щелчком на оси абсцисс гистограммы «вызвать» на экран диалоговое окон Формат оси.

  2. Раскрыть вкладку Шрифт и установить размер шрифта 8.

  3. Перейти на вкладку Выравнивание, щёлкнуть по верхней точке полуокружности, расположенной в окне Ориентация (при этом слово Надпись расположится вертикально), и щёлкнуть на копке ОК.

  4. Двойным щелчком на оси ординат активизировать диалоговое окно Формат оси, раскрыть вкладку Шрифт, установить размер шрифта 8 и щелкнуть на кнопке ОК.

  5. Двойным щелчком на каком-либо столбике гистограммы открыть окно Формат ряда данных. Раскрыть вкладку Параметры, установить на ноль счётчик Ширина зазора, щёлкнуть на кнопке ОК.

На экране появится отредактированная гистограмма.

При реализации способа равных частот интервалы группировки имеют одинаковые частоты и разную длину.

1. По формуле находится ориентировочное число интервалов;

2. Путём деления числа единиц изучаемой совокупности на число интервалов определяется ориентировочное число наблюдений, приходящееся на один интервал группировки;

3. С помощью описанного выше порядка осуществляется упорядочение данных в Excel.

4. В качестве нижней границы первого интервала группировки выбирается минимальное значение изучаемого признака;

5. Отсчитывается число наблюдений, приходящееся на один интервал группировки. Сравнивают последнее из этих наблюдений со следующим за ним наблюдением. Если они не равны, то в качестве верхней границы берут их полусумму. В том случае, когда сравниваемые наблюдения совпадают друг с другом, сравнивают следующую пару наблюдений, пока не будет найдена верхняя граница соответствующего интервала.

6. После определения границ интервалов группировки и подсчёта групповых частот составляют таблицу частот.

Следует иметь ввиду, что групповые частоты некоторых интервалов группировки могут отличаться от ориентировочного числа наблюдений, приходящихся на один интервал группировки. Это вызвано тем, что значения изучаемого признака у некоторых единиц изучаемой совокупности численно равны друг другу, что приводит к перевыполнению некоторых интервалов.

Группировка данных наблюдения по дискретному количественному признаку зависит от числа различных возможных значений этого признака. В том случае, когда число этих значений велико (больше 20-25), процесс группировки ничем не отличается от процесса группировки данных по непрерывному количественному признаку. Если число различных возможных значений изучаемого признака невелико, то группировка сводится к подсчёту частоты появления каждого из его различных значений.

Для группировки данных наблюдения по дискретному количественному признаку в Excel используют рассмотренные ранее средства– процедуру Гистограмма и встроенную статистическую функцию ЧАСТОТА. Различие заключается в том, что в поле Интервал карманов вводятся не границы интервалов группировки, а все целые числа от до . Группировка осуществляется в следующей последовательности:

  1. В диапазон ячеек (например А1:А200) вводятся данные наблюдения.

  2. В ячейку А201 вводится функция =МИН (А1:А200) и нажимается клавиша Enter или в разряде Статистические функции библиотеки встроенных функций рабочего листа Excel (см. стр. 9) выбирается функция МИН. в ячейке появляется наименьшее наблюдаемое значение изучаемого признака.

  3. В ячейку А202 вводится функция =МАКС (А1:А200) и нажимается клавиша Enter или используется функция МАКС из разряда Статистических функций. В ячейке появляется наибольшее наблюдаемое значение изучаемого признака.

  4. В соответствующий диапазон ячеек столбца С вводятся целые числа от до .

  5. В меню Сервис выделяется строка Анализ данных.

  6. В открывшемся диалоговом окне выделяется процедура Гистограмма вводится ссылка на диапазон А1:А200, в котором записана исследуемая статистическая совокупность.

  7. В поле Интервал карманов вводится ссылка на диапазон ячеек столбца С (п.4), в котором находятся все различные значения изучаемого дискретного признака.

  8. Щелчком на переключателе Выходной интервал активизируется поле ввода, расположенное справа от этого переключателя. Вводится в это поле ссылку (например Е1) на левую верхнюю ячейку диапазона, в который будет выведена таблица результатов решения.

  9. Устанавливается флажок Вывод графика и нажимается кнопка ОК.