- •Факультет
- •Часть 1. Бизнес-Прогноз
- •54 Часа
- •Условия выставления оценки за курс
- •Шкала перевода оценки знаний по 100-балльной системе в эквивалент пятибалльной системы
- •Темы зачетных домашних заданий
- •Требования к содержанию отчетов и оформлению домашних заданий
- •Тема 1 ms Excel - Диаграммы, Аппроксимация и математические тренды
- •Цена золота,(помесячно, 1968-2012 гг.) (www.Kitco.Com )
- •Построение линии тренда для произвольной функции.
- •Метод наименьших квадратов
- •Следует выбрать вид и параметры функции f(t) так, чтобы величина mse была минимальной.
- •Пример необоснованного применения линейного тренда для описания данных.
- •Нерегулярная компонента. Анализ остатков
- •Результаты
- •Надстройка acf(…)
- •Тема 2 ms Excel - Многомерные регрессии и прогноз
- •Регрессия.
- •Расчет регрессии для одной переменной
- •Миникейс: Розничные продажи сша
Результаты
Сделайте вывод о корректности использованной модели прогноза.
Надстройка acf(…)
Для проведения анализа ряда остатков удобно использовать не стандартную для Excel (авторскую) надстройку Acf.xla.(см. папку Надстройки в рабочей папке данного курса).
Надстройку можно записать в папку С:/Program Files/Microsoft office/Office11|12|14/Library, в которой расположены все надстройки Excel, а потом подключить и использовать.
Для ее подключения нужно:
В
Office 2003 и более ранних
вызвать окно Надстройки через меню
Сервис\Надстройки, отметить пункт
«ACF(..)», щелкнуть ОК.
В Office 2007 верхний левый
угол круглая кнопка «Office»
→
снизу
Параметры Excel
→
слева
Надстройки →
снизу
Управление: Надстройки Excel,
кнопка Перейти. →
В появившемся окне Надстройки
отметить «ACF(..)», щелкнуть
ОК.
В Office 2010 вызвать меню Файл
(верхний левый угол) →
слева
Параметры →
слева
Надстройки →
снизу
Управление: Надстройки Excel,
кнопка Перейти. →
В появившемся окне Надстройки
отметить «ACF(..)», щелкнуть
ОК.
Надстройку Acf.xla можно так же просто запустить, как файл Excel с макросами, разрешив запуск макросов).
П
осле
запуска надстройки требуется указать
ряд остатков прогноза, максимальную
длину лага в коррелограмме и число
переменных в регрессии, для вычисления
числа степеней свободы и значений
статистики в дополнительных тестах.
Если при запуске надстройки с инструментальной панели выделен какой-либо диапазон данных, он подхватывается окном ввода автоматически.
Вывод результатов расчета производится в новый лист Excel.
Тема 2 ms Excel - Многомерные регрессии и прогноз
Простая линейная регрессия. Оценка ошибок определения параметров регрессии по выборке, оценка их значимости (t-тест).
Уравнение многомерной линейной регрессии.
Практическое определение параметров регрессии, их ошибок и значимости регрессии в целом с помощью функции =ЛИНЕЙН(…) (…) и =ЛГРФПРИБЛ(…) MS Excel.
Корреляционная матрица переменных регрессии.
Определение значимых переменных и исключение незначимых. Пошаговый анализ в модели множественной регрессии.
Использование множественных регрессий с ранговыми переменными в анализе сезонных колебаний с трендом (аддитивная модель сезонных колебаний с трендом).
Авторегрессионая модель в анализе сезонных колебаний.
Регрессия.
Вид связи между количественными признаками.
При «жесткой» функциональной связи задание значений независимых переменных X1, X2, … Xk однозначно определяет значение функции Y.
При регрессионной связи задание значений независимых переменных X1, X2, … Xk, однозначно определяет лишь ожидаемое в среднем значение зависимой переменной <Y> (которое мы обозначаем буквой F - прогноз зависимой переменной Y). Значение самой зависимой переменной Y отличается от ее среднего значения F на величину случайного отклонения (вариации) .
Y = F+
Простая линейная регрессия.
Регрессия, предполагающая линейную связь между независимой переменной X и средним значением зависимой переменной F
F = m1*X + m0
Y = m1*X + m0 +
Многомерная (множественная) линейная регрессия.
Линейная регрессия, предполагающая линейную связь между совокупностью независимых (объясняющих) переменных {X1 , X2 , … Xk} и ожидаемым значением зависимой переменной F:
F = mkXk +mk-1Xk-1 +…+m1X1 +m0
Y = mkXk +mk-1Xk-1 +…+m1X1 +m0 +
Множественная нелинейная регрессия.
Регрессия, предполагающая произвольный (нелинейный) вид связи между совокупностью независимых (объясняющих) переменных {X1 , X2 , … Xk} и ожидаемым значением зависимой переменной F:
F = f ( Xk; Xk-1; … X1 )
Y = f ( Xk; Xk-1; … X1 )+
Оценки параметров регрессии.
Поскольку параметры регрессии mk оцениваются по уравнению регрессии Y = mkXk +mk-1Xk-1 +…+m1X1 +m0 +, содержащему неизвестные случайные ошибки , эти оценки для mk также неизбежно содержат случайные ошибки.
Стандартные отклонения (ошибки) sk этих оценок необходимо рассчитывать для проведения регрессионного анализа.
Мини-кейс: Компания «Морозко»
Аналитик компании, занимающейся розничными продажами мороженого, должен построить модель для прогноза продаж Yt. Он собрал статистику за три весенних месяца, в которой объединены данные, как относящиеся к самой компании, так и общие сведения (в данном случае о погоде, так как он предположил, что погода должна влиять на продажи мороженого ).
Погодные показатели:
X1 - число месяца, X2 - температура воздуха, X3 - атмосферное давление, X4 - влажность воздуха (%), X5 – облачность.
Данные по компании:
X6 -реклама (затраты на рекламу на радио), X7 – количество рекламных объявлений, X8 - ассортимент (в среднем количество видов мороженого в продаже), X9 – число точек по продаже мороженого.
В таблице так же представлены данные о ежедневных суммах продаж мороженого Yt (тыс. руб.).
(Продолжение таблицы в файле tr_bp3.xls)
Рассмотрите модель множественной регрессии, включающей все 9 факторов как независимые переменные.
Постройте множественную линейную регрессию и найдите коэффициенты регрессии, пользуясь функцией =ЛИНЕЙН(…) (=LINEST).
Компания «Морозко» – анализ: Модель множественной регрессии
Сначала взглянем на данные по продажам, т. е. построим график изменения продаж от времени.
Добавим линию тренда (линейного, очевидно).
В принципе тренд описан неплохо, однако разброс данных относительно тренда велик.
Можно ли его уменьшить?
Расчет коэффициентов множественной регрессии m9… m3 , m2 , m1 и m0 .
Для расчета используем стандартную функцию MS Excel - =Линейн(…). Это функция массива, поэтому результат выдает сразу в несколько ячеек. Диапазон ячеек, нужный для вывода данных, зависит от числа переменных и от установок функции. Если параметр «Статистика» равен 1, то высота диапазона должна быть равна 5 ячейкам, если 0, то одной ячейке. По горизонтали нужно выделить ячеек на одну больше, чем число переменных, если параметр «Конст» равен 1.
В качестве «Известные значения y» указываются все значения показателя (продажи в данном случае), в качестве «Известные значения x» - все объясняющие переменные.
1. Выделите область
10х5 (число_переменных+1 х 5)
2. Вызовите функцию
=ЛИНЕЙН(…)
и укажите аргументы (последние два
равны 1)
3. Для завершения
ввода нажмите и держите кнопки Ctrl
и Shift
и нажмите кнопку Enter
или щелкните мышкой OK.
Используем полученные коэффициенты множественной регрессии m9… m3 , m2 , m1 и m0 для расчета прогноза F по имевшимся данным.
Для удобства перенесем набор коэффициентов в третью строчку. Для обращения строки коэффициентов используйте макрос «ReversColumns», записанный в рабочей книге.
Все ли переменные важны для правильного прогноза?
Оценка значимости отклонения параметров mi от 0.
Если нужна более содержательная оценка возможности отбросить тот или другой параметр mi, как несущественный (незначимый, т.е. равный 0), можно использовать механизм проверки гипотез с помощью распределения Стьюдента.
Гипотеза H0 : µ = 0 коэффициент mi для переменной Xi равен нулю
H1 : µ ≠ 0
t = (<Xi> - µi)/si (здесь µi=0)
α = СтьюдРасп(t, k, 2) - вероятность справедливости нулевой гипотезы.
Для этого вычислим отношение параметров mi к их стандартному отклонению (вторая строка таблицы функции ЛИНЕЙН) и оценим вероятность того, что каждый из параметров случайно отклонился от нулевого значения.
Коэффициент корреляции Пирсона
Коэффициент корреляции r между {Х1, Х3, Х4 …} и {Y1, Y3, Y4 …}, показывает силу связи между двумя наборами данных. Коэффициент корреляции r изменяется в пределах от -1 до +1.
Для расчета коэффициента корреляции
удобно использовать стандартную функцию MS Excel =КОРРЕЛ( x , y).
Для линейного тренда с одной переменной коэффициент корреляции r равен корню квадратному из величины достоверности аппроксимации R2: r = корень(R2).
Коррелограмма ряда остатков.
Расчет корреляционной матрицы
Отбросим не влияющие на качество прогноза переменные Х1, Х3, Х4. Для оставшихся 6 переменных построим корреляционную матрицу.
В нижней строке - корреляции данных Х2, Х5 , … Х9 и Y с набором данных о продажах Y. Разумеется, КОРРЕЛ( Y, Y) =1 и все КОРРЕЛ( Хi, Хi) =1.
Есть ли другие пары переменных с высоким коэффициентом корреляции?
Можно ли при прогнозировании обойтись только одной переменной?
Расчет корреляционной матрицы с помощью инструмента «Анализ данных»
В MS Excel есть специализированные инструменты статистического анализа – надстройка «Анализ данных».
Чтобы подключить эту надстройку пройдите через:
Верхний левый угол кнопка «Office»
→
снизу
Параметры Excel
→
слева
Надстройки
→
снизу
Управление: Надстройки Excel,
кнопка Перейти. →
В появившемся окне выбрать
Пакет анализа. (В старых версиях MS
Office: Меню Сервис →
Надстройки)
После этого в меню Данные появится пункт Анализ данных.
После запуска надстройки выберем инструмент Корреляция
И зададим диапазон данных для анализа
Результат:
Проверка значимости переменных X6 и X7 для объяснения выручки.
Для такой проверки используется статистика Фишера (F-статистика) и оценка вероятности по Фишеру.
Если при отбрасывании переменной изменение коэффициента достоверности R2 значимо, вероятность по Фишеру будет маленькой. В таком случае отбрасывать переменную не стоит.
Попробуем оценить необходимость для объяснения переменных X6 и X7.
Для X7 получаем:
