
- •Тема 1. Описательная статистика
- •1.1. Общие сведения
- •1.2. Cтатистические функции ms Excel для вычисления основных характеристик случайной величины
- •Практическое задание № 1
- •Контрольные вопросы
- •Тема 2. Дисперсионный анализ
- •Практическое задание № 2
- •Контрольные вопросы
- •Практическое задание № 3
- •Теоретические сведения
- •Контрольные вопросы
- •Тема 3. Корреляционно – регрессионый анализ
- •Практическое задание № 4
- •Теоретические сведения
- •Контрольные вопросы
- •Практическое задание № 5 ИспользованиЕ инструмента «корреляция»
- •Теоретические сведения
- •Контрольные вопросы
- •Практическое задание № 6 использование функции линейн
- •Теоретические сведения
- •Контрольные вопросы
- •Тема 5. Прогнозирование и бизнес-анализ средстами ms excel
- •5.1. Прогнозирование на основе анализа временных рядов
- •Факторы, влияющие на значения временного ряда
- •5.1.Средства ms Excel для анализа временных рядов
- •5.3. Применение трендового анализа
- •Практическое задание № 7
- •Теоретические сведения
- •Контрольные вопросы
- •5.4. Прогнозирование методом скользящего среднего
- •Практическое задание № 8
- •Теоретические сведения
- •Контрольные вопросы
- •Практическое задание № 9
- •Теоретические сведения
- •Контрольные вопросы
- •Практическое задание № 11
- •Теоретические сведения
- •Контрольные вопросы
- •Практическое задание № 12
- •Теоретические сведения
- •4. Строится модель прогнозирования: ,
- •Контрольные вопросы
- •Контрольные вопросы по вычислительной практике
- •Индивидуальные задания
- •Индивидуальные задания
Приложение А
Приложения
ПРАКТИЧЕСКИЕ ЗАДАНИЯ и ИНДИВИДУАЛЬНЫЕ ЗАДАНИЯ
для вычислительной практики студентов 2 курса специальности «Финансы»
ПРАКТИЧЕСКИЕ ЗАДАНИЯ
_______________________________________________________________
БИЗНЕС-СТАТИСТИКА И ПРОГНОЗИРОВАНИЕ
СРЕДСТВАМИ EXCEL
________________________________________________________
В
Статистика – это наука, которая занимается разработкой методов сбора и обработки информации о наблюдаемых однородных объектах с целью изучения закономерностей изменений и взаимного влияния явлений и процессов. Важность статистики обусловлена ее ролью в научной и практической деятельности общества.
Социально-экономическая статистика — особый раздел статистической науки, отрасль которая относится к числу дисциплин прикладного характера. Она изучает национальную экономику, экономический потенциал общества в неразрывной связи и взаимозависимости всех его составных элементов, а также анализирует результаты деятельности человека во всех подсистемах национальной экономики — отраслях и секторах экономики.
Явления общественной жизни, изучаемые социально-экономической статистикой, находятся в непрерывном изменении и развитии. С течением времени – от месяца к месяцу, от года к году – изменяются численность населения и его состав, объем производимой продукции, уровень производительности труда и т. д., поэтому одной из важнейших задач статистики является изучение изменения общественных явлений во времени – процесса их развития, их динамики.
Практика для принятия правильных управленческих решений требует своевременного анализа социально-экономических явлений, детального всестороннего анализа наблюдаемых явлений с прогнозом их развития. Решение таких задач значительно упрощает использование статистических программных пакетов. Наличие мощных и удобных программ для анализа статистических данных на персональных компьютерах расширяет круг пользователей статистических методов анализа, так как программные продукты значительно ускоряют решение задач, а также позволяют сохранить алгоритмы расчетов для дальнейшего использования.
Целью вычислительной практики является ознакомление с возможностями Microsoft Excel для решения статистических задач. Электронные таблицы являются идеальной средой для выполнения вычислений различной сложности без особых затрат на программирование, обеспечивают хранение больших массивов информации. В Microsoft Excel включен развитый математический аппарат, специализированные информационные технологии статистического анализа, доступны графические средства представления и анализа данных, что особенно важно для предприятий малого и среднего бизнеса.
Microsoft Excel предоставляет большое число встроенных функций категории Статистические и специализированные информационные технологии статистического анализа — Пакет анализа.
Для загрузки Пакет анализа необходимо:
в меню Файл выбрать пункт Параметры;
в открывшемся диалоговом окне выбрать раздел Надстройки;
в появившемся справа списке надстроек выбрать Пакет анализа и нажать на кнопку Перейти;
в открывшемся диалоговом окне Надстройки в списке Доступные надстройки установить флажок Пакет анализа и нажать на кнопку ОК.
После этого на вкладке Данные появится группа Анализ, содержащая кнопку Анализ данных К этой кнопке следует обращаться для вызова Пакета анализа.
Для успешного применения процедур анализа необходимы начальные знания в области статистических и инженерных расчетов, для которых эти инструменты были разработаны.
Инструменты пакета анализа в Microsoft Excel
Дисперсионный анализ
Пакет анализа включает в себя три средства дисперсионного анализа. Выбор конкретного инструмента определяется числом факторов и числом выборок в исследуемой совокупности данных.
Измерение – получение любых количественных характеристик материальных объектов опытным путем. Измерения бывают прямыми (когда объект непосредственно сопоставляется с носителем единицы измерения, например, измерение длины линейкой) и косвенными (когда измеряемая величина расчитывается из других измеренных величин, например, измерение глубины с помощью эхолота).
Выборка (выборочная совокупность) – конечное число значений измеряемой величины.
Генеральная совокупность – полное (бесконечное) множество значений. (т.е. она включает все возможные значения измеряемой величины и ничего добавить туда уже нельзя).
http://www-chemo.univer.kharkov.ua/department/for%20students/chemometrics2.pdf
Однофакторный дисперсионный анализ
Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности. Этот метод распространяется также на тесты для двух средних (к которым относится, например, t-критерий).
Двухфакторный дисперсионный анализ с повторениями
Представляет собой более сложный вариант однофакторного анализа, включающего более чем одну выборку для каждой группы данных.
Двухфакторный дисперсионный анализ без повторения
Представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу. Используется для проверки гипотезы о том, что средние значения двух или нескольких выборок одинаковы (выборки принадлежат одной и той же генеральной совокупности). Этот метод распространяется также на тесты для двух средних (такие как t-критерий).
Корреляция
Используется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции выборки представляет собой ковариацию двух наборов данных, деленную на произведение их стандартных отклонений.
Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связаны (корреляция близка к нулю).
Ковариация
Используется для вычисления среднего произведения отклонений точек данных от относительных средних. Ковариация является мерой связи между двумя диапазонами данных.
Ковариационный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть большие значения из одного набора данных связаны с большими значениями другого набора (положительная ковариация), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная ковариация), или данные двух диапазонов никак не связаны (ковариация близка к нулю).
Описательная статистика
Это средство анализа служит для создания одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных, для получения более подробных сведений о параметрах диалогового окна.
Экспоненциальное сглаживание
Предназначается для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе. Использует константу сглаживания a, по величине которой определяет, насколько сильно влияют на прогнозы погрешности в предыдущем прогнозе.
Двухвыборочный F-тест для дисперсий
Двухвыборочный F-тест применяется для сравнения дисперсий двух генеральных совокупностей. Например, F-тест можно использовать для выявления различия в дисперсиях временных характеристик, вычисленных по двум выборкам.
Анализ Фурье
Предназначается для решения задач в линейных системах и анализа периодических данных, используя метод быстрого преобразования Фурье (БПФ). Эта процедура поддерживает также обратные преобразования, при этом инвертирование преобразованных данных возвращает исходные данные.
Гистограмма
Используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений, при этом генерируются числа попаданий для заданного диапазона ячеек. Например, необходимо выявить тип распределения успеваемости в группе из 20 студентов. Таблица гистограммы состоит из границ шкалы оценок и количеств студентов, уровень успеваемости которых находится между самой нижней границей и текущей границей. Наиболее часто повторяемый уровень является модой интервала данных.
Скользящее среднее
Используется для расчета значений в прогнозируемом периоде на основе среднего значения переменной для указанного числа предшествующих периодов. Каждое прогнозируемое значение основано на формуле:
,
где N — число предшествующих периодов, входящих в скользящее среднее, A — фактическое значение в момент времени j, F — прогнозируемое значение в момент времени j.
Скользящее среднее, в отличие от простого среднего для всей выборки, содержит сведения о тенденциях изменения данных. Процедура может использоваться для прогноза сбыта, инвентаризации и других процессов.
Генерация случайных чисел
Используется для заполнения диапазона случайными числами, извлеченными из одного или нескольких распределений. С помощью данной процедуры можно моделировать объекты, имеющие случайную природу, по известному распределению вероятностей. Например, можно использовать нормальное распределение для моделирования совокупности данных по росту индивидуумов, или использовать распределение Бернулли для двух вероятных исходов, чтобы описать совокупность результатов бросания монетки.
Ранг и персентиль
Используется для вывода таблицы, содержащей порядковый и процентный ранги для каждого значения в наборе данных. Данная процедура может быть применена для анализа относительного взаиморасположения данных в наборе.
Регрессия
Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных. Например, на спортивные качества атлета влияют несколько факторов, включая возраст, рост и вес. Регрессия пропорционально распределяет меру качества по этим трем факторам на основе данных функционирования атлета. Результаты регрессии впоследствии могут быть использованы для предсказания спортивных качеств другого атлета.
Выборка
Создает выборку из генеральной совокупности, рассматривая входной диапазон как генеральную совокупность. Если совокупность слишком велика для обработки или построения диаграммы, можно использовать представительную выборку. Кроме того, если предполагается периодичность входных данных, то можно создать выборку, содержащую значения только из отдельной части цикла. Например, если входной диапазон содержит данные для квартальных продаж, создание выборки с периодом 4 разместит в выходном диапазоне значения продаж из одного и того же квартала.
Проведение t-теста
Пакет анализа включает в себя три средства анализа среднего для совокупностей различных типов:
Парный двухвыборочный t-тест для средних. Парный двухвыборочный t-тест Стьюдента используется для проверки гипотезы о различии средних для двух выборок данных. В нем не предполагается равенство дисперсий генеральных совокупностей, из которых выбраны данные. Парный тест используется, когда имеется естественная парность наблюдений в выборках, например, когда генеральная совокупность тестируется дважды: до и после эксперимента.
Двухвыборочный t-тест с одинаковыми дисперсиями. Двухвыборочный t-тест Стьюдента служит для проверки гипотезы о равенстве средних для двух выборок. Эта форма t-теста предполагает совпадение дисперсий генеральных совокупностей и обычно называется гомоскедастическим t-тестом.
Двухвыборочный t-тест с разными дисперсиями. Двухвыборочный t-тест Стьюдента используется для проверки гипотезы о равенстве средних для двух выборок данных из разных генеральных совокупностей. Эта форма t-теста предполагает несовпадение дисперсий генеральных совокупностей и обычно называется гетероскедастическим t-тестом. Если тестируется одна и та же генеральная совокупность, используйте парный тест.
Двухвыборочный z-тест для средних
Двухвыборочный z-тест для средних с известными дисперсиями используется для проверки гипотезы о различии между средними двух генеральных совокупностей. Например, этот тест может использоваться для определения различия между характеристиками двух моделей автомобилей.
Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.
Тема 1. Описательная статистика
1.1. Общие сведения
Описательная статистика — самый распространенный прием анализа числовых данных, с помощью которого вычисляются статистические оценки случайной величины. Они позволяют определить тенденцию развития явления или процесса, нивелировать случайные индивидуальные отклонения, подсчитать риск того или иного решения и, кроме того, сравнить различные вариационные ряды.
Описательная статистика вычисляет статистические показатели: среднее, стандартная ошибка, медиана, мода, стандартное отклонение, дисперсия выборки, эксцесс, асимметричность, интервал, минимум, максимум, сумма, счет, k-й наименьший, k-й наибольший, доверительный интервал для заданного уровня надежности. Результаты описательной статистики выводятся в указанное место (текущий лист, другой лист, новая книга)
Показатели описательной статистики можно условно разделить на четыре группы.
Показатели уровня – описывают положение данных на числовой оси. К такого рода показателям относятся минимальный и максимальный элементы выборки, верхний и нижний квартили, персентиль, а также различные средние и другие характеристики.
Показатели рассеяния – описывают степень разброса данных относительно своего центра. Примерами таких показателей являются, прежде всего, дисперсия, стандартное отклонение, размах выборки, межквартильный размах и т.д.
Показатели асимметрии – характеризуют симметрию распределения данных около своего центра. К этой группе показателей относятся коэффициент асимметрии, эксцесс, положение медианы относительно среднего и т.д.
Показатели, описывающие закон распределения данных. К ним относятся таблицы частот, кумуляты, полигоны и т.д.
1.2. Cтатистические функции ms Excel для вычисления основных характеристик случайной величины
Средние характеристики случайной величины вычисляются с помощью следующих функций MS Excel:
средняя арифметическая для оценки математического ожидания1 случайной величины — функция СРЗНАЧ;
средняя геометрическая для оценки средних темпов роста, нахождение значения, равноудаленного от других значений, — функция СРГЕОМ;
средняя гармоническая для оценки средней суммы обратных величин — функция СРГАРМ.
Для вычисления других характеристик, относящихся к показателям уровня, используются такие функции:
количество элементов выборки случайных величин (размер выборки) — функция СЧЕТ;
сумма значений случайных величин — функция СУММ;
минимальное значение случайной величины — функция МИН;
максимальное значение случайной величины — функция МАКС;
интервал — размах вариации, равный разности максимального и минимального значений случайной величины;
k-е наибольшее значение случайной величины — функция НАИБОЛЬШИЙ;
k-е наименьшее значение случайной величины — функция НАИМЕНЬШИЙ.
Показатели рассеяния можно вычислить с помощью функций:
дисперсия характеризует разброс значений случайной величины около ее средней арифметической. Различают дисперсию по выборочной совокупности значений случайной величины — функция ДИСП.В и по генеральной совокупности — функция ДИСП.Г;
стандартное отклонение — наиболее распространенный в статистике показатель рассеивания значений случайной величины относительно её математического ожидания. Различают стандартное отклонение по выборке — функция СТАНДОТКЛОН.В, стандартное отклонение по генеральной совокупности — СТАНДОТКЛОН.Г;
среднее линейное отклонение — это средний модуль отклонений значений случайной величины от среднего арифметического значения, является мерой разброса множества данных — функция СРОТКЛ;
доверительный интервал – оценочный интервал в котором с заданной нами вероятностью находится среднее генеральной совокупности. Данный параметр используется в большинстве статистических исследований и определяет допустимую вероятность ошибки при статистических исследованиях. Для вычисления доверительного интервала с использованием нормального распределения — функция ДОВЕРИТ.НОРМ, а при использовании распределения Стьюдента — функция ДОВЕРИТ.СТЬЮДЕНТ.
средняя квадратическая ошибка среднего является наилучшим критерием оценки точности измерений случайной величины. Она вычисляется как отношение стандартного отклонения к квадратному корню из размера выборки.
Мера взаимного расположения данных в массиве значений характеризуется с помощью показателей:
мода — функция МОДА.ОДН;
медиана — функция МЕДИАНА;
квартиль — функция КВАРТИЛЬ.ВКЛ;
процентиль — функция ПРОЦЕНТИЛЬ.ВКЛ;
Мода — значение, которое наиболее часто встречающееся в выборке. Случайная величина может не иметь моды. Иногда в совокупности встречается более чем одна мода. В этом случае говорят, что совокупность мультимодальна.
Медиана1 — это значение случайной величины, которое разделяет выборку на две равные по количеству элементов части.
Квартиль указывает на место расположения данных выборки или распределения.
Множество значений случайной величины делится на 4 равные части по числу переменных — квартили. Когда значение находится в зоне, где расположено менее 25% наблюдаемых значений переменной, то говорят, что оно расположено в нижнем квартиле. Если же оно расположено там, где находятся верхние 25% значений, то говорят, что оно расположено в верхнем квартиле.
В квартилях значения переменных упорядочены по возрастанию. Указывается номер части (квартиля) и соответствующее начальное значение переменной определенного квартиля: 0 — минимальное значение; 1 — значение 25-го персентиля (персентиль — одна сотая доля массива значений случайной величины); 2 — значение 50-го персентиля или медианы; 3 — значение 75-го персентиля; 4 — максимальное значение.
Процентиль — мера расположения данных выборки или распределения.
Говорят, что n-й процентиль — это такое значение, ниже которого расположено n процентов наблюдений данной переменной. Следовательно, 40-й процентиль — это значение, ниже которого расположено 40% результатов наблюдений; 50-й процентиль называется медианой, а 25-й и 75-й процентили — нижним и верхним квартилями соответственно.
Форма распределения случайной величины характеризуется значениями асимметрии и эксцесса — функции СКОС и ЭКСЦЕСС соответственно.
Асимметрия служит для оценки симметричности распределения случайной величины относительно средней. Если асимметрия — положительное число, распределение имеет сдвиг в сторону положительных значений, иначе — в сторону отрицательных значений.
Эксцесс является характеристикой остроконечности или сглаженности кривой распределения плотности вероятности случайной величины. Эксцесс равен нулю для нормального распределения, положителен для остроконечных и отрицателен для сглаженных по сравнению с нормальной плотностью распределения
Пакет анализа обеспечивает наиболее быстрый способ формирования описательной статистики. При нажатии на кнопку Анализ данных открывается диалоговое окно Анализ данных. Из списка Инструменты анализа этого окна выбирается пункт Описательная статистика. Исходные данные для анализа располагаются в ячейках строк или столбцов таблицы и могут иметь метки. Для входного интервала указывается ориентация — по строкам или столбцам, наличию метки строки или столбца.