- •Тема 1. Информационные технологии статистического анализа…...…4
- •Тема 2. Описательная статистика………………………………………..9
- •Тема 3. Дисперсионный анализ………………………………………....16
- •Лабораторная работа № 3. Инструмент «Двухфакторный дисперсионный анализ»………………………………………………….24 Тема 4. Корреляционно- регрессионный анализ………………………36
- •Тема 5. Прогнозирование и бизнес – анализ с помощью Excel.
- •Тема 1. Информационные технологии статистического анализа
- •Тема 2. Описательная статистика Теория вопроса.
- •Лабораторная работа № 1.
- •Контрольные вопросы.
- •Тема 3. Дисперсионный анализ
- •Лабораторная работа № 2.
- •Однофакторный дисперсионный анализ Теория вопроса.
- •Контрольные вопросы.
- •Лабораторная работа 3
- •Двухфакторный дисперсионный анализ Теория вопроса.
- •Двухфакторный дисперсионный анализ с повторениями.
- •Контрольные вопросы.
- •Тема 4. Корреляционно – регрессионый анализ.
- •Лабораторная работа № 4.
- •Теория вопроса.
- •Контрольные вопросы.
- •Лабораторная работа № 5. Инструмент ИспользованиЯ функции «корреляция».
- •Контрольные вопросы.
- •Лабораторная работа № 6. Инструмент использования функции «линейн».
- •Контрольные вопросы.
- •Тема 5. Прогнозирование и бизнес — анализ с помощью excel.
- •5.1. Методы и модели прогнозирования. О средствах прогнозирования excel.
- •5.2. Использование графического метода.
- •Лабораторная работа № 7.
- •Прогнозирование и регрессионный анализ.
- •Контрольные вопросы.
- •Прогнозирование методом скользящего среднего.
- •Лабораторная работа № 8.
- •Контрольные вопросы.
- •Лабораторная работа № 9.
- •Задание 2.1.
- •Задание 2.2.
- •Контрольные вопросы.
- •Лабораторная работа № 10.
- •Контрольные вопросы.
- •Лабораторная работа № 11.
- •Контрольные вопросы.
- •Лабораторная работа № 12.
- •Алгоритм построения прогнозной модели.
- •4. Строится модель прогнозирования: ,
- •Контрольные вопросы.
- •Критерии оценки знаний студентов
- •Контрольные вопросы к зачету.
- •Приложение 1 задания для самостоятельной
- •Задания для индивидуальной работы.
- •Виды статистических функций
- •Литература.
Тема 3. Дисперсионный анализ
Дисперсионный анализ – это особый прием установления количественной зависимости между изучаемыми признаками совокупности. Основной целью дисперсионного анализа является исследование значимости различия между средними. Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (т.е. анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ.
Лабораторная работа № 2.
ИНСТРУМЕНТ «ОДНОФАКТОРНЫЙ
ДИСПЕРСИОННЫЙ АНАЛИЗ»
Цель: закрепить знания о некоторых понятиях математической статистики, а именно: групповая дисперсия, внутригрупповая дисперсия, межгрупповая дисперсия и общая дисперсия; изучить и научиться применять процедуру расчетов (проверку гипотезы) с помощью однофакторного дисперсионного анализа.
Однофакторный дисперсионный анализ Теория вопроса.
При исследовании зависимостей одной из наиболее простых является ситуация, когда можно указать только один фактор, влияющий на конечный результат, и этот фактор может принимать лишь конечное число значений (уровней). Такие задачи называются задачами однофакторного анализа. Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более уровней фактора, принадлежащих одной и той же генеральной совокупности. Этот метод распространяется также на тесты для двух средних (к которым относится также t – критерий).
Однофакторный дисперсионный анализ позволяет установить, оказывает ли существенное влияние некоторый фактор Ф, который имеет несколько уровней, на исследуемую случайную величину.
Задача сравнения выборок случайных величин формулируется следующим образом: есть несколько (три или более) независимых выборок, полученных из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений (например, этот фактор — тип упаковки), используется однофакторный дисперсионный анализ.
Для полученных выборок предполагается, что они имеют различные выборочные средние и одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли изменяемый независимый фактор существенное влияние на разброс выборочных средних или же разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами, если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп).
Требуется проверить нулевую гипотезу Н0 о равенстве средних значений выборок при каждом уровне фактора. Иначе говоря, требуется установить, значимо или незначимо различаются выборочные средние значения, вычисленные для каждого слоя.
Для сравнения средних значений нескольких выборок строится F - статистика. Нулевая гипотеза записывается следующим образом:
(1),
где
—
среднее k-й
группы.
Проверить гипотезу о равенстве средних значений выборок можно, учитывая следующие допущения при каждом уровне фактора: генеральные совокупности распределены нормально; дисперсии всех совокупностей одинаковы; наблюдения независимы и проводятся в одинаковых условиях.
Пусть
-
й элемент (i=
) k
-й
выборки (
),
где т
—
число выборок и пк
—
число
данных в k-
й
выборке.
Тогда
—
выборочное среднее k-й
выборки
— можно определяется по формуле:
(2)
Общее среднее значение для всех групп вычисляется по формуле:
где
(3)
Основное
уравнение дисперсионногоанализа имеет
следующий вид:
(4),
где
— сумма квадратов отклонений между
группами (сумма квадратов отклонений
выборочных средних
от
общего среднего
).
Расчет
производится по формуле:
(5)
— сумма
квадратов отклонений внутри групп
(сумма
квадратов отклонений наблюдаемых
значений
от
выборочного среднего
).
Формула для вычисления этой суммы
квадратов отклонений:
(6)
— общая
сумма квадратов отклонений наблюдаемых
значений
от
общего среднего
.
Расчет
этой суммы квадратов отклонений
осуществляется по следующей формуле:
(7)
В качестве статистического критерия необходимо воспользоваться критерием Фишера:
(8)
Нулевая
гипотеза принимается, если
расчетное значение критерия Фишера
будет меньше табличного значения
,
и нет оснований считать, что независимый
фактор оказывает влияние на разброс
средних значений. В противном случае
независимый
фактор оказывает существенное влияние
на разброс средних значений и
нулевая гипотеза отвергается (здесь
—
уровень значимости или уровень риска,
обычно для экономических задач принимается
= 0,05).
Итак, процедура однофакторного дисперсионного анализа состоит в проверке гипотезы о том, что имеется одна группа однородных экспериментальных данных против альтернативы о том, что таких групп больше, чем одна. Под однородностью понимается одинаковость средних значений и дисперсий в любом подмножестве данных. При этом дисперсии могут быть как известны, так и неизвестны заранее. Если имеются основания полагать, что известная или неизвестная дисперсия измерений одинакова по всей совокупности данных, то задача однофакторного дисперсионного анализа сводится к исследованию значимости различия средних в группах данных.
Наиболее распространенным и удобным способом представления подобных данных для однофакторного дисперсионного анализа является таблица 6. Для расчетов можно использовать Сервис > Анализ данных > Однофакторный дисперсионный анализ. Если для исследования приняты лишь два средних значения, то можно использовать функцию ТТЕСТ в Мастере функций.
Упражнение 1.
Рассмотреть статистическую совокупность, которая разбита на группы (уровни) по регионам (таблица 3). Например, фирма продает свои товары в различных регионах, имеет данные об объемах продаж в этих регионах по отдельным торговым точкам фирмы. Менеджеры фирмы хотят внести изменения в организацию регионального менеджмента. Прежде всего, необходимо выполнить статистический анализ, имеются ли различия в средних объемах продаж по данным регионам и являются ли они случайными или неслучайными, существенными или несущественными |
При использовании пакета «Анализ данных» необходимо сгруппировать данные определенным образом. Например, данные для каждого из пяти регионов представлены в отдельном столбце, в первой строке которого содержится название региона.
Таблица 3. Объемы продаж продукции фирмы по регионам, руб.
Последовательность действий:
Открыть файл Анализ. Добавить новый лист. Переименовать его дав имя Дисперсия_1. Разместить на листе Дисперсия_1 данные таблицы 3.
С помощью команды меню Сервис > Анализ данных вызвать диалоговое окно Анализ данных. Выбрать инструмент анализа — Однофакторный дисперсионный анализ (рис. 2).
Рис. 2. Окно инструмента «Однофакторный дисперсионный анализ».
3. Ввести информацию для проведения анализа, а именно установить следующие параметры:
щелкнуть в поле Входной интервал и ввести диапазон ячеек А1:Е9;
установить переключатель по столбцам в группе Группирование;
установить флажок Метки в первой строке;
оставить в поле Альфа значение 0,05 (установленное по умолчанию), или изменить его на другое значение в диапазоне от 0 до 1;
определить параметры вывода - Новый рабочий лист дав ему имя Итог3.
Результаты расчета представлены в таблице 4.
Первая часть результатов (таблица «Итоги») представляет собой отчет описательной статистики для каждого региона: количество наблюдений (счет), сумма, среднее и дисперсия объема продаж в данном регионе (см. лабораторную работу 1).
Для понимания второй части таблицы необходимо вспомнить некоторые понятия математической статистики, а именно: групповая дисперсия, внутригрупповая дисперсия, межгрупповая дисперсия и общая дисперсия.
Таблица 4. Результаты расчета.
Г
рупповая
дисперсия
характеризует вариацию значений каждой
группы относительно ее среднего значения.
Внутригрупповой дисперсией называют среднеарифметическую групповых дисперсий, взвешенную на объем групп (частоту значений).
Межгрупповая дисперсия – это дисперсия групповых средних относительно среднего значения всей совокупности.
Общая дисперсия характеризует вариацию, вызванную действием всех уровней фактора. Она вычисляется по индивидуальным значениям всей совокупности относительно ее среднего значения. Общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсий.
Вторая часть (таблица “Дисперсионный анализ”) содержит выведенную информацию, т.е. данные, относящиеся к вопросу о значимости наблюдаемых результатов продаж в разрезе межгрупповых и внутригрупповых показателей. В ней представлены:
Df — число степеней свободы (независимые значения);
SS — сумма квадратов отклонений;
MS — дисперсия, рассчитывается как отношение SS/Df;
F — отношение дисперсии регрессии к дисперсии остатка;
Значимость F — уровень значимости, рассчитывается как МSРегрессия/МS0статок.
Дисперсионный анализ позволяет оценить вероятность появления расхождения между фактическими и предполагаемыми значениями при условии, что наблюдаемые различия вызваны случайными событиями. В нашем случае уровень вероятности (Р-Значение) равно 0,0377. На основании этого можно сделать вывод, что различия в объемах продаж, скорее всего, носят неслучайный характер и вызваны конкретными обстоятельствами (вероятность составляет 96%), а вероятность случайных обстоятельств равна всего 4%. Расчетное значение критерия Фишера (столбец F ) равно 3,067. Сравнивая это значение с табличным значением (F критическое) – 2,817, мы видим, что расчетное значение больше табличного, т.е. можно сделать вывод, региональный фактор влияет на объем продаж.
Значит, при изменении маркетинговой политики фирмы необходимо учитывать региональный фактор, и стоит более детально изучить различия в демографических и экономических условиях регионов и степень их влияния на объем продаж.
Задания для самостоятельной работы.
Задача № 2 (Приложение 1)
Задача № 2 (Приложение 2)
