Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

лаб_раб_заочн.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

3.71 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 45 / 255 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Тема 3. Дисперсионный анализ

Дисперсионный анализ – это особый прием установления количественной зависимости между изучаемыми признаками совокупности. Основной целью дисперсионного анализа является исследование значимости различия между средними. Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (т.е. анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ.

Лабораторная работа № 2.

ИНСТРУМЕНТ «ОДНОФАКТОРНЫЙ

ДИСПЕРСИОННЫЙ АНАЛИЗ»

Цель: закрепить знания о некоторых понятиях математической статистики, а именно: групповая дисперсия, внутригрупповая дисперсия, межгрупповая дисперсия и общая дисперсия; изучить и научиться применять процедуру расчетов (проверку гипотезы) с помощью однофакторного дисперсионного анализа.

Однофакторный дисперсионный анализ Теория вопроса.

При исследовании зависимостей одной из наиболее простых является ситуация, когда можно указать только один фактор, влияющий на конечный результат, и этот фактор может принимать лишь конечное число значений (уровней). Такие задачи называются задачами однофакторного анализа. Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более уровней фактора, принадлежащих одной и той же генеральной совокупности. Этот метод распространяется также на тесты для двух средних (к которым относится также t – критерий).

Однофакторный дисперсионный анализ позволяет установить, оказывает ли существенное влияние некоторый фактор Ф, который имеет несколько уровней, на исследуемую случайную величину.

Задача сравнения выборок случайных величин формулируется следующим образом: есть несколько (три или более) независимых выборок, полученных из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений (например, этот фактор — тип упаковки), используется однофакторный дисперсионный анализ.

Для полученных выборок предполагается, что они имеют различные выборочные средние и одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли изменяемый независимый фактор существенное влияние на разброс выборочных средних или же разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами, если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп).

Требуется проверить нулевую гипотезу Н₀ о равенстве средних значений выборок при каждом уровне фактора. Иначе говоря, требуется установить, значимо или незначимо различаются выборочные средние значения, вычисленные для каждого слоя.

Для сравнения средних значений нескольких выборок строится F - статистика. Нулевая гипотеза записывается следующим образом:

(1),

где — среднее k-й группы.

Проверить гипотезу о равенстве средних значений выборок можно, учитывая следующие допущения при каждом уровне фактора: генеральные совокупности распределены нормально; дисперсии всех совокупностей одинаковы; наблюдения независимы и проводятся в одинаковых условиях.

Пусть - й элемент (i= ) k -й выборки ( ), где т — число выборок и п_к — число данных в k- й выборке.

Тогда — выборочное среднее k-й выборки — можно определяется по формуле: (2)

Общее среднее значение для всех групп вычисляется поформуле:

где (3)

Основное уравнение дисперсионногоанализа имеет следующий вид: (4),

где — сумма квадратов отклонений между группами (сумма квадратов отклонений выборочных средних от общего среднего ). Расчет производится по формуле: (5)

— сумма квадратов отклонений внутри групп (сумма квадратов отклонений наблюдаемых значений от выборочного среднего ). Формула для вычисления этой суммы квадратов отклонений:

(6)

— общая сумма квадратов отклонений наблюдаемых значений от общего среднего .

Расчет этой суммы квадратов отклонений осуществляется по следующей формуле: (7)

В качестве статистического критерия необходимо воспользоваться критерием Фишера:

(8)

Нулевая гипотеза принимается, если расчетное значение критерия Фишера будет меньше табличного значения , и нет оснований считать, что независимый фактор оказывает влияние на разброс средних значений. В противном случае независимый фактор оказывает существенное влияние на разброс средних значений и нулевая гипотеза отвергается (здесь — уровень значимости или уровень риска, обычно для экономических задач принимается = 0,05)_.

Итак, процедура однофакторного дисперсионного анализа состоит в проверке гипотезы о том, что имеется одна группа однородных экспериментальных данных против альтернативы о том, что таких групп больше, чем одна. Под однородностью понимается одинаковость средних значений и дисперсий в любом подмножестве данных. При этом дисперсии могут быть как известны, так и неизвестны заранее. Если имеются основания полагать, что известная или неизвестная дисперсия измерений одинакова по всей совокупности данных, то задача однофакторного дисперсионного анализа сводится к исследованию значимости различия средних в группах данных.

Наиболее распространенным и удобным способом представления подобных данных для однофакторного дисперсионного анализа является таблица 6. Для расчетов можно использовать Сервис > Анализ данных > Однофакторный дисперсионный анализ. Если для исследования приняты лишь два средних значения, то можно использовать функцию ТТЕСТ в Мастере функций.

Упражнение 1.

Рассмотреть статистическую совокупность, которая разбита на группы (уровни) по регионам (таблица 3). Например, фирма продает свои товары в различных регионах, имеет данные об объемах продаж в этих регионах по отдельным торговым точкам фирмы. Менеджеры фирмы хотят внести изменения в организацию регионального менеджмента. Прежде всего, необходимо выполнить статистический анализ, имеются ли различия в средних объемах продаж по данным регионам и являются ли они случайными или неслучайными, существенными или несущественными

При использовании пакета «Анализ данных» необходимо сгруппировать данные определенным образом. Например, данные для каждого из пяти регионов представлены в отдельном столбце, в первой строке которого содержится название региона.

Таблица 3. Объемы продаж продукции фирмы по регионам, руб.

Последовательность действий:

Открыть файл Анализ. Добавить новый лист. Переименовать его дав имя Дисперсия_1. Разместить на листе Дисперсия_1 данные таблицы 3.
С помощью команды меню Сервис > Анализ данных вызвать диалоговое окно Анализ данных. Выбрать инструмент анализа — Однофакторный дисперсионный анализ (рис. 2).

Рис. 2. Окно инструмента «Однофакторный дисперсионный анализ».

3. Ввести информацию для проведения анализа, а именно установить следующие параметры:

щелкнуть в поле Входной интервал и ввести диапазон ячеек А1:Е9;
установить переключатель по столбцам в группе Группирование;
установить флажок Метки в первой строке;
оставить в поле Альфа значение 0,05 (установленное по умолчанию), или изменить его на другое значение в диапазоне от 0 до 1;
определить параметры вывода - Новый рабочий лист дав ему имя Итог3.

Результаты расчета представлены в таблице 4.

Первая часть результатов (таблица «Итоги») представляет собой отчет описательной статистики для каждого региона: количество наблюдений (счет), сумма, среднее и дисперсия объема продаж в данном регионе (см. лабораторную работу 1).

Для понимания второй части таблицы необходимо вспомнить некоторые понятия математической статистики, а именно: групповая дисперсия, внутригрупповая дисперсия, межгрупповая дисперсия и общая дисперсия.

Таблица 4. Результаты расчета.

Г рупповая дисперсия характеризует вариацию значений каждой группы относительно ее среднего значения.

Внутригрупповой дисперсией называют среднеарифметическую групповых дисперсий, взвешенную на объем групп (частоту значений).

Межгрупповая дисперсия – это дисперсия групповых средних относительно среднего значения всей совокупности.

Общая дисперсия характеризует вариацию, вызванную действием всех уровней фактора. Она вычисляется по индивидуальным значениям всей совокупности относительно ее среднего значения. Общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсий.

Вторая часть (таблица “Дисперсионный анализ”) содержит выведенную информацию, т.е. данные, относящиеся к вопросу о значимости наблюдаемых результатов продаж в разрезе межгрупповых и внутригрупповых показателей. В ней представлены:

Df — число степеней свободы (независимые значения);

SS — сумма квадратов отклонений;

MS — дисперсия, рассчитывается как отношение SS/Df;

F — отношение дисперсии регрессии к дисперсии остатка;

Значимость F — уровень значимости, рассчитывается как МSРегрессия/МS0статок.

Дисперсионный анализ позволяет оценить вероятность появления расхождения между фактическими и предполагаемыми значениями при условии, что наблюдаемые различия вызваны случайными событиями. В нашем случае уровень вероятности (Р-Значение) равно 0,0377. На основании этого можно сделать вывод, что различия в объемах продаж, скорее всего, носят неслучайный характер и вызваны конкретными обстоятельствами (вероятность составляет 96%), а вероятность случайных обстоятельств равна всего 4%. Расчетное значение критерия Фишера (столбец F ) равно 3,067. Сравнивая это значение с табличным значением (F критическое) – 2,817, мы видим, что расчетное значение больше табличного, т.е. можно сделать вывод, региональный фактор влияет на объем продаж.

Значит, при изменении маркетинговой политики фирмы необходимо учитывать региональный фактор, и стоит более детально изучить различия в демографических и экономических условиях регионов и степень их влияния на объем продаж.

Задания для самостоятельной работы.

Задача № 2 (Приложение 1)

Задача № 2 (Приложение 2)

<<< < Предыдущая 1 2 3 45 / 255 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.11.2019601.09 Кб3ЛАБ_жур.doc
#
03.11.2018475.14 Кб3ЛАБ_жур.doc
#
13.08.2019242.18 Кб5Лаб_ОС_1.doc
#
21.11.2018463.54 Кб1Лаб_раб 2.docx
#
01.05.2025803.84 Кб2Лаб_раб С++_ОСНОВЫ ПРОГРАММИРОВАНИЯ_ч_2_изм_чис...doc
#
01.07.20253.71 Mб1лаб_раб_заочн.doc
#
23.09.20191.02 Mб6ЛАБ_РАБ_КОР_НОВЫЙ_020609.doc
#
08.05.2019107.75 Кб20Лаб_Теор1_ Граф.docx
#
01.07.20251.17 Mб15лаб_янги.docx
#
01.04.2025123.9 Кб0Лаб_№2_Списки на базе массива.doc
#
22.11.2018534.02 Кб11Лаба 1. Трансформаторы.doc