- •Указания по использованию компьютерной техники при решении заданий
- •1. Кодировка экономической информации
- •2. Корреляционно-регрессионный анализ
- •2.1. Этапы корреляционно-регрессионного анализа
- •2.1.1. Сбор данных
- •2.1.2. Корреляционный анализ
- •2.1.3. Расчет параметров и построение регрессионных моделей
- •2.1.4. Оценка статистической значимости модели
- •2.2. Методика построения моделей
- •2.2.1. Метод исключения
- •2.2.2. Шаговый метод
- •2.2.3. Инструментарий Microsoft Excel 2000 для решения множественной регрессионной задачи
- •3. Оптимизационный анализ
- •3.1. Особенности загрузки оптимизатора
- •3.2. Инструментальные средства Microsoft Excel 2000
- •4. Прогнозирование на основе трендов
- •4.1. Сущность и виды трендов
- •4.2. Инструментарий прогнозирования в Microsoft Excel 2000
- •4.2.1. Основные Excel-инструменты для работы с динамическими рядами
- •4.2.2. Технология построения трендов в Microsoft Excel 2000
- •4.2.3. Анализ полученных трендов и прогнозирование
- •Условия контрольных и практических заданий
- •Тестовые задания
- •Список рекомендуемой литературы
- •Учебное издание
- •Родченко Владимир Борисович
2.1.3. Расчет параметров и построение регрессионных моделей
Здесь стремятся отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин Х1, Х2,.... Хn
Эту меру обобщенно выражают математической моделью линейной множественной регрессионной зависимости:
Y = a0 + b1Х1 + b2Х2 + ... +bnXn
ЭВМ вычисляет параметры модели: свободный член а0 (константа, или пересечение) и коэффициенты bп (коэффициенты регрессии). Величину у называют откликом, а Х1, Х2, ..., Хп - факторами или предикторами.
2.1.4. Оценка статистической значимости модели
После получения каждого варианта уравнения обязательной процедурой является оценка его статистической значимости, поскольку главная цель - получить уравнение наивысшей значимости. Однако в связи с тем, что расчеты выполняет ЭВМ, а решение на основе оценки значимости уравнения принимает исследователь (принять или отбросить уравнение), условно можно выделить третий этап этой человеко-машинной технологии как интеллектуальный немашинный этап, для которого почти все данные по оценке значимости уравнения подготавливает ЭВМ.
Статистическую значимость, т. е. пригодность постулируемой модели для использования ее в целях предсказания значений отклика. Для оценки качества полученной модели программа вычислила также целый ряд коэффициентов, которые обязан рассмотреть исследователь, сравнивая их с известными статистическими критериями и оценивая модель с точки зрения здравого смысла.
На этом этапе исключительно важную роль играют коэффициент детерминации и F-критерий значимости регрессии.
R Squared (R2) - коэффициент детерминации - это квадрат множественного коэффициента корреляции между наблюдаемым значением Y и его теоретическим значением, вычисленным на основе модели с определенным набором факторов. Коэффициент детерминации измеряет действительность модели. Он может принимать значения от 0 до 1. Эта величина особенно полезна для сравнения ряда различных моделей и выбора наилучшей модели.
R2 есть доля вариации прогнозной (теоретической) величины Y относительно наблюденных значений Y, объясненная за счет включенных в модель факторов. Очень хорошо, если R2>= 80%. Остальная доля теоретических значений У зависит от других, не участвовавших в модели факторов. Задача исследователя - находить факторы, увеличивающие R2, к давать объяснение вариаций прогноза, чтобы получить идеальное уравнение. Однако, коэффициент R2 самое большее может достигнуть величины 1 (или 100%), когда все значения факторов различны. А если в данных есть повторяющиеся опыты, то величина R2 не может достигнуть 1, как бы хороша ни была модель. Поэтому дубликаты данных следует удалять из исходной таблицы до начала расчета регрессии. Некоторые программные пакеты автоматически удаляют дубликат, оставляя лишь уникальные данные. Повторение одинаковых данных снижает надежность оценок модели. R2 = 1 лишь при полном согласии экспериментальных (наблюденных) и теоретических (расчетных) данных, т. е. когда теоретические значения точно совпадают с наблюдаемыми. Однако это считается весьма маловероятным случаем.
Средствами регрессионного анализа, в т.ч. Excel, вычисляется F-критерий значимости регрессии для уравнения в целом. Это рассчитанное по наблюденным данным значение Fp (F расчетный, наблюденный) следует сравнивать с соответствующим критическим значением Fк, (F критический, табличный) (см. приложение А). Fк исследователь выбирает из публикуемых статистических таблиц на заданном уровне вероятности (на том, на каком вычислялись параметры модели, например, 95%).
Если наблюденное значение Fp окажется меньше критического значения Fк, то уравнение нельзя считать значимым. В иной терминологии об этом же может быть сказано: не отвергнута нуль-гипотеза относительно значимости всех коэффициентов регрессии в постулируемой модели, т. е. коэффициенты практически равны нулю.
Электронная технология корреляционно-регрессионного анализа становится абсолютно бесполезной, если расчетные данные будут толковаться не вполне правильно.
Если полученная модель статистически значима, ее применяют для прогнозирования (предсказания), управления или объяснения.
Если же обнаружена незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи, которую надо поискать.
