- •Тема 1. Информационные технологии статистического анализа…...…4
- •Тема 2. Описательная статистика………………………………………..9
- •Тема 3. Дисперсионный анализ………………………………………....16
- •Лабораторная работа № 3. Инструмент «Двухфакторный дисперсионный анализ»………………………………………………….24 Тема 4. Корреляционно- регрессионный анализ………………………36
- •Тема 5. Прогнозирование и бизнес – анализ с помощью Excel.
- •Тема 1. Информационные технологии статистического анализа
- •Тема 2. Описательная статистика Теория вопроса.
- •Лабораторная работа № 1.
- •Контрольные вопросы.
- •Тема 3. Дисперсионный анализ
- •Лабораторная работа № 2.
- •Однофакторный дисперсионный анализ Теория вопроса.
- •Контрольные вопросы.
- •Лабораторная работа 3
- •Двухфакторный дисперсионный анализ Теория вопроса.
- •Двухфакторный дисперсионный анализ с повторениями.
- •Контрольные вопросы.
- •Тема 4. Корреляционно – регрессионый анализ.
- •Лабораторная работа № 4.
- •Теория вопроса.
- •Контрольные вопросы.
- •Лабораторная работа № 5. Инструмент ИспользованиЯ функции «корреляция».
- •Контрольные вопросы.
- •Лабораторная работа № 6. Инструмент использования функции «линейн».
- •Контрольные вопросы.
- •Тема 5. Прогнозирование и бизнес — анализ с помощью excel.
- •5.1. Методы и модели прогнозирования. О средствах прогнозирования excel.
- •5.2. Использование графического метода.
- •Лабораторная работа № 7.
- •Прогнозирование и регрессионный анализ.
- •Контрольные вопросы.
- •Прогнозирование методом скользящего среднего.
- •Лабораторная работа № 8.
- •Контрольные вопросы.
- •Лабораторная работа № 9.
- •Задание 2.1.
- •Задание 2.2.
- •Контрольные вопросы.
- •Лабораторная работа № 10.
- •Контрольные вопросы.
- •Лабораторная работа № 11.
- •Контрольные вопросы.
- •Лабораторная работа № 12.
- •Алгоритм построения прогнозной модели.
- •4. Строится модель прогнозирования: ,
- •Контрольные вопросы.
- •Критерии оценки знаний студентов
- •Контрольные вопросы к зачету.
- •Приложение 1 задания для самостоятельной
- •Задания для индивидуальной работы.
- •Виды статистических функций
- •Литература.
Контрольные вопросы.
1. Понятие дисперсии?
2. Для чего используется «Однофакторный дисперсионный анализ»?
3. Дайте определение понятиям: групповая дисперсия, внутригрупповая дисперсия, межгрупповая дисперсия и общая дисперсия?
4. Что такое Нулевая гипотеза и как она связана с критерием Фишера?
Лабораторная работа 3
ИНСТРУМЕНТ «ДВУХФАКТОРНЫЙ
ДИСПЕРСИОННЫЙ АНАЛИЗ».
Цель: закрепить знания о понятии дисперсия; изучить и научиться применять процедуру расчетов (проверку гипотезы) с помощью «Двухфакторного дисперсионного анализа без повторения» и «Двухфакторного дисперсионного анализа с повторениями».
Двухфакторный дисперсионный анализ Теория вопроса.
Технология вычисления дисперсий группированных данных, примененная при решении задачи однофакторного дисперсионного анализа, может быть использована и для анализа более сложных производственных ситуаций.
Пример: Пусть на двух различных технологических установках производится выпуск одинаковых изделий. Половину периода выпуска предприятие получает некоторый исходный материал для производства изделий от одного поставщика, а другую половину – от другого. Необходимо установить значимость различия средних значений параметра качества изделий как между установками, так и между поставщиками при условии, что известные или неизвестные дисперсии параметра качества по отдельным изделиям одинаковы. Речь в данном случае идет о двухфакторном дисперсионном анализе.
Двухфакторный дисперсионный анализ без повторения - представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу. Используется для проверки гипотезы о том, что средние значения двух или нескольких выборок одинаковы (выборки принадлежат одной и той же генеральной совокупности). Этот метод распространяется также на тесты для двух средних, такие как t-критерий.
Если на результативный признак одновременно влияет два фактора — А и В, следует использовать метод двухфакторного анализа. Дисперсионный анализ в этом случае имеет свои особенности, так как необходимо учитывать еще и взаимодействие между факторами.
Рассмотрим матрицу наблюдений двухфакторного анализа на примере. Пусть главным фактором будет А (например, влияние на результат способа обработки сырья), а дополнительным — фактор В (например, влияние на результат качества сырья). Предположим, что фактор А принимает К, а фактор В — m различных значений, т.е. К — число типов обрабатывающих станков, а т — число партий сырья (Таблица 5).
Таблица 5. Матрица наблюдений двухфакторного анализа.
Способы обработки |
||||
Партия сырья |
А11 |
А2 |
…… |
Аk |
В1 |
Y11 |
Y12 |
…… |
Y1k |
В2 |
Y2 |
Y22 |
…… |
Y2k |
….. |
…. |
…. |
…… |
…. |
Вm |
Ym |
Ym2 |
…… |
Ymk |
Уровни фактора А(способы обработки) — отображаются в таблице по столбцам, а уровни фактора В(партии сырья) — по строкам, образуя блоки.
В каждом блоке отклики могут значимо различаться только за счет различных уровней фактора А, т.е. за счет различных типов обработки. В отличие от матрицы однофакторного анализа, наблюдения в любом столбце не являются однородными, т.е. не образуют выборки, если влияние мешающего фактора значимо.
Как и в случае однофакторного анализа, нулевая гипотеза об отсутствии эффектов обработки имеет вид
,
а нулевая гипотеза об отсутствии эффектов
блоков
.
Величины
называются эффектами
блоков, они
характеризуют отклонения от
в результате действия фактора В.
Величины
называются
эффектами
обработки, они
характеризуют отклонения отклика из-за
действия фактора А.
Проверять эту гипотезу, так же как и в задаче однофакторного дисперсионного анализа, можно только при соблюдении следующих требований:
при различных сочетаниях уровней факторов А и В наблюдения независимы;
при каждом сочетании уровней факторов А и В результативный признак имеет нормальный закон распределения с постоянной для различных сочетаний генеральной дисперсией.
Вклады
факторов А
и
В
в значения отклика на соответствующих
уровнях j
и
i
обозначим
через
и
.
Величины вкладов
и
,
не могут быть восстановлены однозначно.
Так, увеличение всех
.
и уменьшение всех
,
одновременно на одну и ту же константу
не изменят значения
.
Между
факторами нет взаимодействия. Таким
образом, каждое наблюдение
представляется
в виде следующей аддитивной модели:
(1.1)
где
i=
1,
..., т,
a
j=
1,
..., К.
Предполагается,
что для случайных величин справедливо
требование
,
причем дисперсия
;
одинакова при всех значениях i
и
j.
Для
однозначного определения вкладов
факторов следует использовать отклонения
,
и
отклика от
в результате действия факторов А
и
В,
где
— это общее среднее значений отклика,
его оценкой является величина
Следовательно
(1.2)
Общая
сумма квадратов Q
разбивается
уже не на две, а на три части: QA
и
QB,
обусловленные
влиянием факторов, и остаточную часть
Qобщ,
обусловленную
случайной изменчивостью
самих наблюдений за счет неучтенных
факторов:
(1.3) или
(1.4)
где
— среднее
по j-му
столбцу;
— оценка эффекта обработки
;
—
среднее по i-му
блоку;
— оценка
эффекта блока
.
В целом, базовая таблица имеет вид, как
показано в таблице 6.
Таблица 6. Базовая таблица двухфакторного анализа.
Источник дисперсии |
Сумма квадратов |
Число степеней свободы |
Средний квадрат (оценка дисперсии) |
Главные эффекты |
|
|
|
Фактор А |
|
|
|
Фактор В |
|
|
|
Остаточное рассеяние |
|
|
|
Итого |
|
|
|
При
выполнении гипотезы
об
отсутствии эффектов обработки, статистики
и
являются
несмещенными оценками общей дисперсии
.
Поэтому
для проверки
нулевой гипотезы дисперсия по фактору
А
сравнивается
с остаточной дисперсией.
С этой целью вычисляется F-отношение
,
имеющее F-распределение
c
степенями
свободы. Чем больше различие между
эффектами обработки
,
тем
большую тенденцию к возрастанию проявляет
F-статистика.
На уровне значимости
гипотеза
отвергается, если
где
—
критическое
значение, или если вычисленный уровень
значимости
для
статистики Фишера авыч
< а. В
этом
случае влияние фактора А
на
отклик значимо.
Аналогично
по F-отношению
проверяется
гипотеза об отсутствии влияния
фактора В.
По
F-отношению
проверяется
значимость двухфакторной модели с
независимым
действием факторов.
Двухфакторный дисперсионный анализ с повторениями, также используется для выявления факта влияния контролируемых факторов А и В на результативный признак на основе выборочных данных, однако каждому уровню одного из факторов А (или В) соответствует более одной выборки данных.
Microsoft Excel располагает функцией «Двухфакторный дисперсионный анализ без повторений» и «Двухфакторный анализ с повторением».
Функция «Двухфакторный анализ без повторения» используется для выявления факта влияния контролируемых факторов А и В на результативный признак на основе выборочных данных, причем каждому уровню факторов А и В соответствует только одна выборка.
Для вызова этой функции необходимо на панели меню выбрать команду Сервис > Анализ данных >Двухфакторный дисперсионный анализ без повторений.
Упражнение 1.
В таблице 7 представлены данные об урожайности (ц /га) четырех сортов пшеницы (четыре уровня фактора А), достигнутой при использовании пяти типов удобрений (пять уровней фактора В). Данные получены на 20 участках одинакового размера и аналогичного почвенного покрова. Определить, влияет ли сорт и тип удобрения на урожайность пшеницы. |
Таблица 7. Данные для примера использования функции «Двухфакторный дисперсионный анализ без повторений».
Последовательность действий:
1. Открыть файл Анализ.xls. Добавить новый лист. Переименовать его дав имя Дисперсия_2. Разместить на листе Дисперсия_2 данные таблицы 7.
2. С помощью команды меню Сервис > Анализ данных вызвать диалоговое окно Анализ данных. Выбрать инструмент анализа — Двухфакторный дисперсионный анализ без повторений (Рис. 3).
3. Ввести информацию для проведения анализа, а именно установить следующие параметры:
щелкнуть в поле Входной интервал и ввести диапазон ячеек, содержащий анализируемые данные;
флажок опции Метки устанавливается в том случае, если первая строка во входном диапазоне содержит заголовки столбцов. Если заголовки отсутствуют, флажок следует сбросить;
оставить в поле Альфа значение 0,05 (установленное по умолчанию), или изменить его на другое значение в диапазоне от 0 до 1;
определиться параметры вывода - Новый рабочий лист дав ему имя Итог4.
Р
ис.
3. Окно инструмента „Двухфакторный
дисперсионный анализ без повторений”.
Результаты двухфакторного дисперсионного анализа с помощью функции «Двухфакторный дисперсионный анализ без повторений» представлены в таблице 8.
Как
видно по результатам, расчетное значение
величины F
для фактора
А
(тип
удобрения)
,
а критическая область образуется
правосторонним интервалом (3,49; +∞). Так
как
не попадает в критическую область,
гипотезу
принимаем (считаем, что в этом эксперименте
тип удобрения не
оказал влияния на урожайность).
Расчетное
значение величины F
для фактора В
(сорт
пшеницы)
а
критическая область образуется
правосторонним интервалом (3,259; +∞).
Так
как
не
попадает в критическую область,
следовательно гипотезу
также
принимаем (считаем, что в данном
эксперименте сорт пшеницы также не
оказал
влияния на урожайность). Следовательно,
выбранные в анализе факторы не оказывают
существенного влияния на урожайность,
или выбранный объем совокупности
недостаточен для проявления зависимостей.
Таблица 8. Результаты двухфакторного дисперсионного анализа данных без повторений.
