- •Тема 1. Описательная статистика
- •1.1. Общие сведения
- •1.2. Cтатистические функции ms Excel для вычисления основных характеристик случайной величины
- •Практическое задание № 1
- •Контрольные вопросы
- •Тема 2. Дисперсионный анализ
- •Практическое задание № 2
- •Контрольные вопросы
- •Практическое задание № 3
- •Теоретические сведения
- •Контрольные вопросы
- •Тема 3. Корреляционно – регрессионый анализ
- •Практическое задание № 4
- •Теоретические сведения
- •Контрольные вопросы
- •Практическое задание № 5 ИспользованиЕ инструмента «корреляция»
- •Теоретические сведения
- •Контрольные вопросы
- •Практическое задание № 6 использование функции линейн
- •Теоретические сведения
- •Контрольные вопросы
- •Тема 5. Прогнозирование и бизнес-анализ средстами ms excel
- •5.1. Прогнозирование на основе анализа временных рядов
- •Факторы, влияющие на значения временного ряда
- •5.1.Средства ms Excel для анализа временных рядов
- •5.3. Применение трендового анализа
- •Практическое задание № 7
- •Теоретические сведения
- •Контрольные вопросы
- •5.4. Прогнозирование методом скользящего среднего
- •Практическое задание № 8
- •Теоретические сведения
- •Контрольные вопросы
- •Практическое задание № 9
- •Теоретические сведения
- •Контрольные вопросы
- •Практическое задание № 11
- •Теоретические сведения
- •Контрольные вопросы
- •Практическое задание № 12
- •Теоретические сведения
- •4. Строится модель прогнозирования: ,
- •Контрольные вопросы
- •Контрольные вопросы по вычислительной практике
- •Индивидуальные задания
- •Индивидуальные задания
Контрольные вопросы
1. Понятие дисперсии.
2. Укажите, в чем заключается цель дисперсионного анализа.
2. Укажите назначение однофакторного дисперсионного анализ?
3. Дайте определение понятиям: групповая дисперсия, внутригрупповая дисперсия, межгрупповая дисперсия и общая дисперсия.
4. Что такое нулевая гипотеза и как она связана с критерием Фишера?
Практическое задание № 3
ИНСТРУМЕНТ «ДВУХФАКТОРНЫЙ
ДИСПЕРСИОННЫЙ АНАЛИЗ»
Цель: закрепить знания о понятии «дисперсный анализ»; изучить процедуру расчетов (проверку гипотезы) с помощью двухфакторного дисперсионного анализа без повторения и двухфакторного дисперсионного анализа с повторениями; научиться применять их на практике.
Теоретические сведения
Технология вычисления дисперсий группированных данных, примененная при решении задачи однофакторного дисперсионного анализа, может быть использована и для анализа более сложных производственных ситуаций.
Пусть на двух различных технологических установках производится выпуск одинаковых изделий. Половину периода выпуска предприятие получает некоторый исходный материал для производства изделий от одного поставщика, а другую половину – от другого. Необходимо установить значимость различия средних значений параметра качества изделий как между установками, так и между поставщиками при условии, что известные или неизвестные дисперсии параметра качества по отдельным изделиям одинаковы. Речь в данном случае идет о двухфакторном дисперсионном анализе.
Двухфакторный дисперсионный анализ без повторения представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу. Используется для проверки гипотезы о том, что средние значения двух или нескольких выборок одинаковы (выборки принадлежат одной и той же генеральной совокупности).
Если на результативный признак одновременно влияет два фактора — А и В, следует использовать метод двухфакторного анализа. Дисперсионный анализ в этом случае имеет свои особенности, так как необходимо учитывать еще и взаимодействие между факторами.
Рассмотрим матрицу наблюдений двухфакторного анализа на примере. Пусть главным фактором будет А (например, влияние на результат способа обработки сырья), а дополнительным — фактор В (например, влияние на результат качества сырья). Предположим, что фактор А принимает К, а фактор В — m различных значений, т.е. К — число типов обрабатывающих станков, а т — число партий сырья (табл. 1).
Уровни фактора А (способы обработки) отображаются в таблице по столбцам, а уровни фактора В (партии сырья) — по строкам, образуя блоки.
В каждом блоке отклики могут значительно различаться только за счет различных уровней фактора А, т.е. за счет различных типов обработки. В отличие от матрицы однофакторного анализа, наблюдения в любом столбце не являются однородными, т.е. не образуют выборки, если влияние мешающего фактора значимо.
Таблица 1
Матрица наблюдений двухфакторного анализа
Способы обработки |
||||
Партия сырья |
А11 |
А2 |
… |
Аk |
В1 |
Y11 |
Y12 |
… |
Y1k |
В2 |
Y2 |
Y22 |
… |
Y2k |
… |
… |
… |
… |
… |
Вm |
Ym |
Ym2 |
… |
Ymk |
Как и в случае однофакторного анализа, нулевая гипотеза об отсутствии эффектов обработки имеет вид
,
а нулевая гипотеза об отсутствии эффектов
блоков
—
.
Величины
называются эффектами
блоков, они
характеризуют отклонения от
в результате действия фактора В.
Величины
называются
эффектами
обработки, они
характеризуют отклонения отклика из-за
действия фактора А.
Проверять эту гипотезу, так же, как и в задаче однофакторного дисперсионного анализа, можно только при соблюдении следующих требований:
при различных сочетаниях уровней факторов А и В наблюдения независимы;
при каждом сочетании уровней факторов А и В результативный признак имеет нормальный закон распределения с постоянной для различных сочетаний генеральной дисперсией.
Вклады
факторов А
и
В
в значения отклика на соответствующих
уровнях j
и
i
обозначим
через
и
.
Величины вкладов
и
не могут быть восстановлены однозначно.
Так, увеличение всех
и уменьшение всех
одновременно на одну и ту же константу
не изменят значения
.
Между
факторами нет взаимодействия. Таким
образом, каждое наблюдение
представляется
в виде следующей аддитивной модели:
(1.1),
где
i
= 1,
..., т,
a
j
= 1,
..., К.
Предполагается,
что для случайных величин справедливо
требование
,
причем дисперсия
одинакова при всех значениях i
и
j.
Для
однозначного определения вкладов
факторов следует использовать отклонения
,
и
отклика от
в результате действия факторов А
и
В,
где
— это общее среднее значений отклика,
его оценкой является величина
Следовательно,
(1.2).
Общая
сумма квадратов Q
разбивается
уже не на две, а на три части: QA
и
QB,
обусловленные
влиянием факторов, и остаточную часть
Qобщ ,
обусловленную случайной изменчивостью
самих наблюдений за счет неучтенных
факторов:
(1.3) или
(1.4)
где
— среднее
по j-му
столбцу;
— оценка эффекта обработки
;
—
среднее по i-му
блоку;
— оценка
эффекта блока
.
В целом, базовая таблица имеет следующий
вид.
При
выполнении гипотезы
об отсутствии эффектов обработки
статистики
и
являются
несмещенными
Таблица 2
Базовая таблица двухфакторного анализа
Источник дисперсии |
Сумма квадратов |
Число степеней свободы |
Средний квадрат (оценка дисперсии) |
Главные эффекты |
|
|
|
Фактор А |
|
|
|
Фактор В |
|
|
|
Остаточное рассеяние |
|
|
|
Итого |
|
|
|
оценками
общей дисперсии
.
Поэтому
для проверки
нулевой гипотезы дисперсия по фактору
А
сравнивается
с остаточной дисперсией.
С этой целью вычисляется F-отношение
,
имеющее F-распределение
c
степенями
свободы. Чем больше различие между
эффектами обработки
тем
большую тенденцию к возрастанию проявляет
F-статистика.
На уровне значимости
гипотеза
отвергается, если
где
—
критическое
значение, или если вычисленный уровень
значимости
для
статистики Фишера авыч
< а. В
этом
случае влияние фактора А
на
отклик значимо.
Аналогично
по F-отношению
проверяется
гипотеза об отсутствии влияния
фактора В.
По
F-отношению
проверяется
значимость двухфакторной модели с
независимым
действием факторов.
Microsoft Excel располагает инструментами «Двухфакторный дисперсионный анализ без повторений» и «Двухфакторный анализ с повторением».
Инструмент «Двухфакторный анализ без повторения» используется для выявления факта влияния контролируемых факторов А и В на результативный признак на основе выборочных данных, причем каждому уровню факторов А и В соответствует только одна выборка.
Инструмент «Двухфакторный дисперсионный анализ с повторениями» используется для выявления факта влияния контролируемых факторов А и В на результативный признак на основе выборочных данных, однако каждому уровню одного из факторов А (или В) соответствует более чем одна выборка данных.
Для вызова этих инструментов необходимо выполнить команду Данные→ Анализ→ Анализ данных и в открывшемся диалоговом окне Анализ данных выбрать необходимый инструмент (Двухфакторный дисперсионный анализ без повторений или Двухфакторный анализ с повторением).
Рассмотрим применение инструмента «Двухфакторный дисперсионный анализ без повторений» на примере.
Упражнение 1
На рис. 7 представлены данные об урожайности (ц/га) четырех сортов пшеницы (четыре уровня фактора А), достигнутой при использовании пяти типов удобрений (пять уровней фактора В). Данные получены на 20 участках одинакового размера и аналогичного почвенного покрова. Определить, влияет ли сорт и тип удобрения на урожайность пшеницы. |
Р
ис.
7. Данные
для использования инструмента
«Двухфакторный
дисперсионный анализ без повторений»
Последовательность действий:
1. Открыть файл Анализ-ФинА-Иванов.xlsх. Добавить новый лист и переименовать его, задав имя Дисперсия_2. Разместить на листе Дисперсия_2 данные рис. 7.
2. Вызвать диалоговое окно Анализ данных. Выбрать инструмент анализа — Двухфакторный дисперсионный анализ без повторений.
3. В открывшемся диалоговом окне Двухфакторный дисперсионный анализ без повторений (рис. 8) ввести информацию для проведения анализа, а именно установить следующие параметры:
щелкнуть в поле Входной интервал и ввести диапазон ячеек, содержащий анализируемые данные;
флажок опции Метки устанавливается в том случае, если первая строка во входном диапазоне содержит заголовки столбцов. Если заголовки отсутствуют, флажок следует сбросить;
оставить в поле Альфа значение 0,05 (установленное по умолчанию), или изменить его на другое значение в диапазоне от 0 до 1;
определиться параметры вывода — Новый рабочий лист, дав ему имя Итог 4.
Р
ис.
8. Окно инструмента
Двухфакторный дисперсионный анализ без повторений.
Результаты анализа представлены на рис. 9.
Как
видно по результатам, расчетное значение
величины F
для фактора
А
(тип
удобрения)
,
а критическая область образуется
правосторонним интервалом (3,49; +∞). Так
как
не попадает в критическую область,
гипотезу
принимаем (считаем, что в этом эксперименте
тип удобрения не
оказал влияния на урожайность).
Расчетное
значение величины F
для фактора В
(сорт
пшеницы)
,
а
критическая область образуется
правосторонним интервалом (3,259; +∞).
Так
как
не
попадает в критическую область,
следовательно гипотезу
также
принимаем (считаем, что в данном
эксперименте сорт пшеницы также не
оказал
влияния на урожайность). Следовательно,
выбранные в анализе факторы не оказывают
существенного влияния на урожайность,
или выбранный объем совокупности
недостаточен для проявления зависимостей.
Р
ис.
9.
Результаты двухфакторного дисперсионного
анализа данных
без повторений.
Рассмотрим как работает инструмент «Двухфакторный дисперсионный анализ с повторениями». Выше было отмечено, что он используется для выявления факта влияния контролируемых факторов А и В на результативный признак на основе выборочных данных, однако каждому уровню одного из факторов А (или В) соответствует более одной выборки данных.
Упражнение 2
Исследуйте влияние артикула материала, из которого изготавливалась партия товара (фактор А), и фасона изделия (фактор В) на сбыт продукции с целью определения вкусов покупателей в трех магазинах. Выручка в тыс. грн. при реализации продукции приведена на рис. 10 |
Рис.
10. Данные для использования инструмента
Двухфакторный
дисперсионный анализ с повторениями
Последовательность действий:
1. Открыть файл Анализ-ФинА-Иванов.xls. Добавить новый лист и переименовать его в Дисперсия_3. Разместить на листе Дисперсия_3 данные из рис. 10.
2. Открыть диалоговое окно Двухфакторный дисперсионный анализ с повторениями (рис. 11) и задать в нем следующие параметры:
в поле Входной интервал ввести диапазон ячеек, содержащий анализируемые данные;
в поле Число строк для выборки вводится 3 (по числу выборок, которое приходится на каждый уровень одного из факторов);
оставить в поле Альфа значение 0,05 (установленное по умолчанию) или изменить его на другое значение в диапазоне от 0 до 1;
определить параметры вывода — Новый рабочий лист, дав ему имя Итог 5.
3. Нажать на кнопку ОК.
Р
ис.
11. Окно инструмента
Двухфакторный анализ с повторением.
Результаты двухфакторного дисперсионного анализа с помощью инструмента «Двухфакторный дисперсионный анализ с повторениями» представлены на рис. 12.
Как
видим, расчетное значение F
фактора А
(артикул)
,
а критическая область образуется
правосторонним интервалом (3,01; +∞). Так
как
попадает в критическую область, гипотезу
не
принимаем, т.е.
считаем, что артикул влияет на размер
выручки.
Расчетное
значение F
фактора В
(фасон)
,
а критическая область образуется
правосторонним интервалом (3,40; +∞). Так
как
попадает
в критическую область, гипотезу Нв:
b1
=
b
2
=
...= b
т
не
принимаем, т.е. считаем, что фасон
также влияет на размер выручки. Таким
образом, выбранные факторы влияют на
объем продаж и следует их принимать во
внимание при планировании структуры
закупок.
Р
ис.
12 Результаты
двухфакторного дисперсионного анализа
с
повторениями
Индивидуальные задания
Задача № 3. (Приложение Б).
Задача № 3. (Приложение В).
