Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информационные технологии-Багиева.docx
Скачиваний:
83
Добавлен:
13.04.2015
Размер:
5.51 Mб
Скачать
  1. Статистика вExcel

В Microsoft Excel представлен список методов статистической обработки данных, вызываемых командой Сервис/Анализ данных. Каждый метод реализован в виде отдельного режима работы. Пакет анализа включает следующие инструменты:

  • Гистограмма;

  • Выборка;

  • Генерация случайных чисел;

  • Методы проверки статистических гипотез;

  • Дисперсионный анализ и др.

Наряду с надстройкой «Анализ данных» могут применяться статистические функции.

Гистограмма.

Результат сводки и группировки материалов статистического наблюдения оформляются в виде таблиц и статистических рядов распределения. В зависимости от признака, положенного в основу образования ряда, различают атрибутивные и вариационные ряды распределения. Последние, в свою очередь делятся от характера вариации на дискретные (прерывные) и интервальные (непрерывные). Удобнее всего ряды распределения анализировать с помощью их графического изображения. Наглядное представление о характере изменения частот вариационного ряда дают полигон и гистограмма.

Полигон используется для изображения дискретных вариационных рядов (рис.42). Для построения полигона применяется мастер построения диаграмм (см. тему Диаграмма).

Рисунок 43. Построение полигона

Для изображения интервальных вариационных рядов распределения применяют гистограммы. При необходимости гистограмма интегрального ряда распределения может быть преобразована в полигон. Для этого нужно середины верхних сторон прямоугольников соединить прямыми линиями (рис. 43).

Рисунок 44. Гистограмма и полигон интегрального ряда распределения

В практике возникает необходимость в преобразовании ряда распределения в кумулятивные ряды, строящиеся по накопленным частотам (рис. 44). С их помощью можно определять структурные средние и наблюдать за процессом концентрации изучаемого явления (кривые Лоренца).

Рисунок 45. Кумулята для интервального ряда распределения

Режим «Гистограмма» служит для вычисления частот попадания данных в указанные границы интервального вариационного ряда распределения.

Команда Сервис/Анализ данных/Гистограмма отображает диалоговое окно (рис. 45), в котором задаются параметры, указанные в таблице 10.

Параметр

Описание

Входной интервал

Ссылка на ячейки, содержащие анализируемые данные

Интервал карманов

Необязательный параметр. Набор граничных значений, определяющих интервалы. Эти значения должны быть введены в возрастающем порядке. Вычисляется число попаданий в сформированные интервалы, причем границы интервалов являются строгими нижними и нестрогими верхними: а<хb. Если диапазон карманов не задан, то набор интервалов будет создан автоматически.

Метки

Задается если первая строка (столбец) во входном диапазоне содержит заголовки.

Выходной интервал

Поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона.

Новый рабочий лист

Вставка результата анализа на новый рабочий лист начиная с ячейки А1. Можно задать имя открываемого рабочего листа, указав его в соседней области.

Новая рабочая книга

Результат анализа выводится в новой рабочей книге на первом листе начиная с ячейки А1.

Парето

Устанавливает данные в порядке убывания частоты.

Интервальный процент

Выполняет расчет в процентах накопленных частот и включает в гистограмму графика кумуляты.

Вывод графика

Автоматически создает встроенную диаграмму на листе содержащем выходной диапазон.

Таблица 10. Параметры режима «Гистограмма»

На рис. 45 приведен пример построения гистограммы и кумуляты, для задачи, в которой представлен общий объем товарооборота по районам Ярославский области.

Рисунок 46. Пример построения гистограммы и кумуляты

Выборка

Исследование массовых статистических явлений в зависимости от полноты охвата изучаемого объекта бывает сплошным и несплошным (выборочным). Под выборочным наблюдением понимается метод исследования, при котором обобщающие показатели изучаемой совокупности устанавливаются по некоторой ее части на основе положений случайного отбора. Выборка должна быть представительной (репрезентативной), чтобы по ней можно было судить о генеральной совокупности. Выборочный метод позволяет значительно сократить время на контроль и получение основных статистических характеристик, но может привести и к появлению ошибок, уменьшающих получение истинных характеристик генеральной совокупности. Данное обстоятельство важно учитывать при формировании малых выборок. Достаточно сложной проблемой является определение оптимального объема выборки. В математической статистике доказывается, что необходимая численность собственно-случайной повторной выборки определяется выражением:

где ∆х – предельная ошибка выборки;

2 – дисперсия генеральной совокупности;

t – коэффициент доверия.

Режим «Выборка» служит для формирования выборки из генеральной совокупности на основе механизма повторного собственно-случайного отбора, а также из периодических данных.

Команда Сервис/Анализ данных/Выборка отображает диалоговое окно, в котором задаются параметры, указанные в таблице 11.

Параметр

Описание

Входной интервал

См. описание в режиме «Гистограмма» таб. 10

Метки

Выходной интервал

Новый рабочий лист

Новая рабочая книга

Периодический метод выборки

Указывается размер периодического интервала, по которому формируется выборка. Значение из генеральной совокупности, номер которого совпадает с номером, заданным в поле Период, и каждое последующее с номером, кратным периоду, будет занесено в выходной столбец

Случайный метод

Указывается число размещаемых в выходном столбце случайных значений.

Таблица 11. Параметры режима «Выборка»

На рис. 46 приведен пример использования режима «Выборка», для организации лотереи. Требуется отобрать три победителя.

Рисунок 47. Пример использования режима «Выборка»

Генерация случайных чисел

Случайной называется переменная величина, принимающая в зависимости от случая те или иные значения с определенными вероятностями. Чтобы дать полное математическое описание случайной величины, нужно указать множество ее значений и соответствующие случайной величине распределение вероятностей на этом множестве. Для дискретной случайной величины используется статистический ряд распределения, для непрерывной случайной величины используется функция распределения. Функцией распределения случайной величины Х называется функция F(x), задающая вероятность того, что случайная величина Х принимает значение, меньшее х, т.е. F(x)=P(X<x).

В статистике широко используются различные виды теоретических распределений – нормальное распределение, биноминальное, дискретное, распределение Пуассона и т.д.

Режим «Генерация случайных чисел» служит для формирования массива случайных чисел, распределенных по одному из теоретических распределений. В зависимости от выбранного теоретического распределения меняются параметры диалогового окна «Генерация случайных чисел». Общими параметрами являются параметры, указанные в таблице 12.

Параметр

Описание

Число переменных

Число столбцов значений, которые необходимо разместить в выходном диапазоне. Если число не задано, заполняются все столбцы выходного диапазона

Число случайных чисел

Число случайных значений, которое необходимо ввести в каждом столбце выходного диапазона. Если число не введено, все строки выходного диапазона будут заполнены.

Распределение

Указывается тип распределения из раскрывающегося списка.

Случайное рассеивание

Вводиться начальное число для генерации определенной последовательности случайных чисел.

Выходной интервал/ Новый рабочий лист/

Новая рабочая книга

См. описание в режиме «Гистограмма» таб. 10

Таблица 12. Параметры режима «Генерация случайных чисел»

На рис. 47 приведен пример использования режима «Генерация случайных чисел», если требуется смоделировать 10 подбрасываний двух игральных костей. Предварительно следует сформировать таблицу значений и вероятностей, а затем задать соответствующие параметры в диалоговом окне. Заметим, что для дискретного распределения сумма вероятностей должна быть равна 1.

Рисунок 48. Пример использования режима «Генерация случайных чисел»

Двухвыборочный t-тест с одинаковыми и различными дисперсиями

Режим «Двухвыборочный t-тест с одинаковыми (различными) дисперсиями» служит для проверки гипотез о различии между средними (математическими ожиданиями) двух нормальных распределений соответственно с неизвестными, но равными дисперсиями (2х=2у) и с неизвестными дисперсиями, равенство которых не предполагается.

Команда Сервис/Анализ данных/Двухвыборочный t-тест с одинаковыми дисперсиями (Двухвыборочный t-тест с различными дисперсиями) отображает диалоговое окно, в котором задаются параметры, указанные в таблице 13.

Параметр

Описание

Интервал переменной 1

Вводиться ссылка на ячейки, содержащие результаты наблюдений величины Х. Диапазон должен состоять из одного столбца (строки)

Интервал переменной 2

Вводиться ссылка на ячейки, содержащие результаты наблюдений величины Y. Диапазон должен состоять из одного столбца (строки)

Гипотетическая средняя разность

Число, равное предполагаемой разности средних (мат. ожиданий) изучаемых генеральных совокупностей. Значение 0 указывает, что проверяется гипотеза H0: ax=ay

Альфа

Вводиться уровень значимости , равный вероятности возникновения ошибки первого рода.

Метки

См. описание в режиме «Гистограмма» таб. 10

Выходной интервал

Новый рабочий лист

Новая рабочая книга

Таблица 13. Параметры режима «Двухвыборочный t-тест с одинаковыми (различными) дисперсиями»

На рис. 48 приведен пример использования режима «Двухвыборочный t-тест с одинаковыми (различными) дисперсиями». Известны данные о расходе сырья при производстве продукции по старой и новой технологиям. Требуется проверить гипотезу H0: ax=ay , предположив, что =0,05,соответствующие генеральные совокупности имеют нормальное распределения:

  1. с одинаковыми дисперсиями;

  2. с различными дисперсиями.

Рисунок 49. Пример использования режима «Двухвыборочный t-тест с одинаковыми (различными) дисперсиями»

Дисперсионный анализ

Дисперсионный анализ – это статистический метод анализа результатов наблюдений, зависящих от различных одновременно действующих факторов и оценка их влияния. В зависимости от количества факторов, включенных в анализ, различают классификацию по одному фактору (однофакторный анализ), по двум признакам (двухфакторный анализ) и многофакторную классификацию, изучением которой занимается многофакторный анализ.

Задачи однофакторного дисперсионного анализа являются самыми простыми, но часто встречаются на практике. Методы дисперсионного анализа основываются на следующем: пусть а1, а2, …, аm – математическое ожидание результатов признака соответственно при уровне А(1), А(2), …, А(m) (i=1,2, , m). Если при изменении уровня фактора групповые математические ожидания не изменяются, т.е. а1= а2 =…= аm, то считают, что результативный признак не зависит от фактора А, в противном случае такая зависимость имеется. Поскольку числовые значения математических ожиданий неизвестны, возникает задача проверки гипотезы H0: а12=…=аm, при выполнении условий:

  1. наблюдения независимы и проводятся в одинаковых условиях;

  2. результативный признак имеет нормальное распределение с постоянной для различных уровней генеральной дисперсией 2.

Для проверки гипотезы о равенстве дисперсий трех (и более) нормальных распределений применяется критерий Бартлетта.

, где

Для подтверждения (или опровержения) гипотезы при заданном уровне значимости  находиться правосторонняя критическая точка wкр, определяющая критический интервал (wкр;+). Если w попадает в интервал, то гипотеза H0: 21=22=…=2m отвергается, иначе принимается.

Если гипотеза H0: 21=22=…=2m подтверждается, то можно приступить к процедуре дисперсионного анализа, т.е. проверке гипотезы H0: а12=…=аm.

В математической статистике доказывается формула: , где

- общая выборочная дисперсия, показатель вариации наблюдаемых «игреков», вызванной влиянием на Y фактора А и остаточных факторов;

- дисперсия групповых средних, показатель вариации наблюдаемых «игреков», вызванной влиянием на Y фактора А;

- средняя групповых дисперсий, показатель вариации наблюдаемых «игреков», вызванной влиянием на Y остаточных факторов.

В математической статистике доказывается, что если гипотеза H0: а12=…=аm верна, то величина

имеет F-распределение с числом степеней свободы k=m-1 и l=n-m.

При использовании F-критерия строиться правосторонняя критическая область (Fкр;+). Если расчетное значение Fр- попадает в интервал, то гипотеза H0: а12=…=аm отвергается, т.е. считается что фактор А влияет на результативный признак Y, иначе влияние фактора А на признак Y не подтверждается.

Режим «Однофакторный дисперсионный анализ» служит для выяснения факта влияния контролируемого фактора А на результативный признак Y на основе выборочных данных.

Команда Сервис/Анализ данных/Однофакторный дисперсионный анализ отображает диалоговое окно, в котором задаются параметры, указанные в таблице 14.

Параметр

Описание

Группирование

Устанавливается в положение «По столбцам», «По строкам» в зависимости от расположения данных во входном диапазоне

Альфа

См. описание в режиме «Двухвыборочный t-тест» таб. 13

Входной интервал

См. описание в режиме «Гистограмма» таб. 10

Метки

Выходной интервал

Новый рабочий лист

Новая рабочая книга

Таблица 14. Параметры режима «Однофакторный дисперсионный анализ»

На рис. 49 приведен пример использования режима «Однофакторный дисперсионный анализ». Известны данные об объеме работ, выполненных на стройке (за смену) четырьмя бригадами. Требуется выяснить, зависит ли объем выполненных работ от работающей бригады при уровне значимости =0,05.

Рисунок 50. Пример использования режима «Однофакторный дисперсионный анализ»

Так как Fр попадает в критическую область, то можно сделать вывод о том, что объем ежедневной выработки зависит от работающей бригады.

Двухфакторный дисперсионный анализ без повторений и с повторениями

Логика однофакторного и двухфакторного дисперсионного анализа во многом схожа, разница состоит в наличии двух факторов А и В, т.е. проверке следующих гипотез:

HА: а12=…=аmА;

HВ: b1=b2=…=bmВ.

Основой проведения двухфакторного дисперсионного анализа служит комбинационная группировка по двум факторам с последующим разложением дисперсии результативного признака по формуле , где

- общая выборочная дисперсия, показатель вариации наблюдаемых «игреков», вызванной влиянием на Y фактора А, фактора В и остаточных факторов;

- дисперсия групповых средних по фактору А, показатель вариации наблюдаемых «игреков», вызванной влиянием на Y фактора А;

- дисперсия групповых средних по фактору В, показатель вариации наблюдаемых «игреков», вызванной влиянием на Y фактора В;

- средняя групповых дисперсий, показатель вариации наблюдаемых «игреков», вызванной влиянием на Y остаточных факторов.

На основе данного разложения для генеральной дисперсии 2 находятся четыре несмещенные оценки . Причем оценкаявляется несмещенной в любом случае, оценка- при выполнении гипотезы НА, оценка - при выполнении гипотезы Нв, а оценка - при выполнении гипотезы НА и Нв.

В математической статистике доказывается, что если гипотеза HА верна, то величина

Имеет F-распределение с числом степеней свободы k=mA-1 и l=(mA-1)(mB-1).

Аналогично рассчитывается FB. Проверка выдвинутых гипотез осуществляется так же, как и при однофакторном дисперсионном анализе.

Двухфакторный дисперсионный анализ имеет две разновидности: без повторений и с повторениями. В первом случае каждому уровню факторов соответствует только одна выборка данных, во втором – определенным уровням может соответствовать более одной выборки.

Режимы «Двухфакторный дисперсионный анализ без повторений» и «Двухфакторный дисперсионный анализ с повторениями» служат для выяснения на основе выборочных данных факта влияния контролируемого факторов А и В на результативный признак Y. При этом в режиме «Двухфакторный дисперсионный анализ без повторений» каждому уровню А и В соответствует только одна выборка данных, а в режиме «Двухфакторный дисперсионный анализ с повторениями» каждому уровню одного из факторов А (или В) соответствует более одной выборки данных. В последнем случае число выборок для каждого уровня должно быть одинаковым.

Команда Сервис/Анализ данных/Двухфакторный дисперсионный анализ без повторений (с повторениями) отображает диалоговое окно, в котором задаются те же параметры, что указаны в таблице 14, только добавлено поле Число строк для выборки, в которое вводиться число выборок, приходящихся на каждый уровень одного из факторов.

На рис. 50 приведен пример использования режима «Двухфакторный дисперсионный анализ без повторений». Известны данные о разрывной нагрузке пряжи на разных станках и из разного сырья. Требуется при уровне значимости =0,05 выяснить, влияют ли на качество пряжи, измеряемое величиной разрывной нагрузки, тип станка и вид сырья.

Рисунок 51. Пример использования режима «Двухфакторный дисперсионный анализ без повторений»

Расчетное значение F-критерия фактора А (тип станка) равное 4,33 не попадает в правосторонний интервал (19, +), следовательно считаем, что влияние станков на качество пряжи не подтвердилось. А расчетное значение F-критерия фактора В, равное 25 попадает в критическую область (18,51; +), следовательно вид сырья влияет на качество пряжи.

На рис. 51 приведен пример использования режима «Двухфакторный дисперсионный анализ с повторениями». Известны данные об урожайности пшеницы, выращенной на участках, на которых вносились различные виды удобрений и которые подвергались различной химической обработке. Требуется при уровне значимости =0,05 выяснить, влияют ли на урожайность пшеницы вид удобрения и способ химической почвы.

Рисунок 52. Пример использования режима «Двухфакторный дисперсионный анализ с повторениями»

Так как расчетное значение F-критерия фактора А (вид удобрения) равное 123,64 попадает в критическую область (2,9; +), то считаем, что вид удобрения влияет на урожайность. И расчетное значение F-критерия фактора В, равное 3,99 попадает в критическую область (2,9; +), следовательно способ химической обработки так же влияет на урожайность пшеницы.