
- •Анализ и прогноз
- •Примеры для самостоятельной работы.
- •3. Сделать полный анализ зависимости объема договоров от численности работающих на крупных предприятиях по данным 20 организаций области за год:
- •4. Сделать полный анализ зависимости количества студентов государственных высших учебных заведений от количества учащихся школ по данным Челябинской области за период с 1985 по 2003 года:
- •5. Сделать полный анализ зависимости среднедушевого денежного дохода в месяц от индекса потребительских цен по данным Челябинской области за период с 1992 по 2000 год:
- •6. Сделать полный анализ зависимости среднемесячной номинальная начисленной заработной платы за месяц от индекса потребительских цен по данным Челябинской области за период с 1992 по 2000 год:
- •7. Сделать полный анализ зависимости среднего размера месячной пенсии за месяц от индекса потребительских цен по данным Челябинской области за период с 1992 по 2000 год:
- •8. Сделать полный анализ зависимости среднего потребления от среднего дохода по данным опроса 16 групп респондентов:
- •9. Сделать полный анализ зависимости среднего потребления от среднего дохода по данным опроса 16 групп респондентов:
- •11. Сделать полный анализ зависимости стоимости грузовой автомобильной перевозки от расстояния перевозки по данным 20 транспортных компаний:
- •12. Сделать полный анализ зависимости материалоемкости (показатель: потребление материалов на единицу продукции) от размеров предприятия (показатель: объем выпуска продукции) по данным 9 компаний:
- •17. Сделать полный анализ зависимости стоимости грузовой автомобильной перевозки от веса груза по данным 20 транспортных компаний:
Анализ и прогноз
Самым простым и распространенным методом анализа и прогноза является статистический регрессионный анализ. Освоение базовых принципов регрессионного анализа сделаем на примере простейшей парной линейной регрессии.
Парная регрессия – это уравнение связи двух переменных у и х:
,
где y ‑ зависимая переменная (результативный признак); x ‑ независимая, объясняющая переменная (признак ‑ фактор).
Линейная
парная регрессия:
.
Построение
уравнения регрессии сводится к оценке
ее параметров (в приведенных выше
уравнениях регрессии – параметры a
и b). Для оценки
параметров регрессий, линейных по
параметрам, используют метод наименьших
квадратов (МНК). МНК позволяет получить
такие оценки параметров, при которых
сумма квадратов отклонений фактических
значений результативного признака у
от теоретических
минимальна,
т.е.
.
Для линейных уравнений решается следующая система относительно a и b:
Тесноту
связи изучаемых явлений оценивает
линейный коэффициент парной корреляции
:
,
где
– среднее значение y,
– среднее значение x
,
.
Линейный
коэффициент корреляции изменяется в
пределах
.
Равенство коэффициента нулю свидетельствует об отсутствии линейной связи. Равенство коэффициента ‑1 или +1 показывает наличие функциональной связи. Знак «+» указывает на прямую связь (увеличение или уменьшение одного признака сопровождается аналогичным изменением другого признака), знак «‑» указывает на связь обратную (увеличение или уменьшение одного признака сопровождается противоположным по направлению изменением другого признака). Показателям тесноты связи можно дать качественную оценку (табл. 1).
Таблица 1.
-
Количественная мера
тесноты связи
Качественная характеристика
силы связи
Неустойчивая связь
до 0,5
Очень низкая
0,5-0,6
Низкая
0,6-0,7
Заметная
Устойчивая связь
0,7-0,8
Средняя
0,8-0,9
Высокая
0,9 и более
Очень высокая
Для расчета парного коэффициента корреляции можно воспользоваться статистической функцией Excel КОРРЕЛ.
КОРРЕЛ(массив1; массив2),
где массив1 – это ячейка интервала значений, массив2 – это второй интервал ячеек со значениями.
Оценку качества построенной модели определяет коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации.
Коэффициент
детерминации
:
.
Коэффициент детерминации принимает значения от 0, когда факторы x не оказывают никакого влияния на зависимую переменную, до 1, когда изменения зависимой переменной y полностью объяснимы влиянием факторов модели.
Функциональная связь возникает при значении равном 1, а отсутствие связи ‑ 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50%. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.
Средняя ошибка аппроксимации ‑ среднее отклонение расчетных значений от фактических:
.
Допустимый
предел значений
‑ не более 8 ‑ 10%.
Оценка значимости уравнения регрессии проводится с помощью F-критерия Фишера. F-критерий Фишера заключается в проверке гипотезы Н0 о статистической незначимости уравнения регрессии. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.
Fфакт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
,
где n – число единиц совокупности; m – число параметров при переменных (для линейной регрессии m = 1).
Fтабл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k1 = m, k2 = n – m – 1 (для линейной регрессии m = 1) и уровне значимости .
Уровень значимости – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно величина принимается равной 0,05 или 0,01.
Если Fтабл < Fфакт, то Н0 ‑ гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если Fтабл > Fфакт, то гипотеза Н0 не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
.
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:
Сравнивая фактическое и критическое (табличное) значения t-статистики ‑ tтабл и tфакт ‑ принимаем или отвергаем гипотезу Н0.
Если tтабл < tфакт то Н0 отклоняется, т.е. a, b и rxy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х.
Если tтабл > tфакт то гипотеза Н0 не отклоняется и признается случайная природа формирования а, b или rxy.
Точечный
прогноз заключается в получении
прогнозного значения
,
которое определяется путем подстановки
в уравнение регрессии:
соответствующего (прогнозного) значения
:
.
Для выделения области наиболее вероятного местонахождения уравнения регрессии, и соответственно не точки, а области прогноза, вычисляется диапазон от нижней до верхней границы доверительной области:
где
;
;
-
остаточное отклонение регрессии,
-
среднее значение x,
-
табличное значение статистики Стьюдента
с заданным уровнем достоверности α и
известной степенью свободы n-2
для линейного уравнения регрессии.
Для определения параметров линейной регрессии в Excel используется встроенная статистическая функция ЛИНЕЙН.
Порядок вычислений следующий:
выделить область пустых ячеек 5x2 (5 строк и 2 столбца);
вставить функцию ЛИНЕЙН, задать значение константы и статистики равными единице.
ввести формулу как формулу массива, для чего нужно нажать клавишу F2 а затем комбинацию клавиш Ctrl+Shift+Enter.
В таблице 2 показано, в каком порядке возвращается при вычислении функции ЛИНЕЙН дополнительная регрессионная статистика.
Таблица 2.
-
Значение коэффициента b
Значение коэффициента a
Среднеквадратичное отклонение seb
Среднеквадратичное отклонение sea
Коэффициент детерминации R2
sey
F-статистика
Число степеней сводобы df
Регрессионная сумма квадратов ssрег.
Остаточная сумма квадратов ssост.
Пример.
Торговое предприятие имеет несколько филиалов. Исследуется зависимость годового оборота отдельного филиала от размера торговой площади.
№ филиала |
Товарооборот y, млн.руб. |
Торговая площадь x, тыс. кв.м. |
1 |
2,93 |
0,31 |
2 |
5,27 |
0,98 |
3 |
6,85 |
1,21 |
4 |
7,01 |
1,29 |
5 |
7,02 |
1,12 |
6 |
8,35 |
1,49 |
7 |
4,33 |
0,78 |
8 |
5,77 |
0,94 |
9 |
7,68 |
1,29 |
10 |
3,16 |
0,48 |
11 |
1,52 |
0,24 |
12 |
3,15 |
0,55 |
Требуется:
Построить графически линейное уравнение парной регрессии у от х.
Определить линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
Рассчитать коэффициент детерминации.
Определить F-критерий Фишера.
Оценить статистическую значимость коэффициентов регрессии.
Выполнить точечный прогноз у при прогнозном значении х, составляющем 115% от среднего значения.
Вычислить и построить графически доверительную область для прогноза.
Решение.
Для определения параметров воспользуемся статистической функцией ЛИНЕЙН табличного процессора Microsoft Excel.
В таблице 3. представлены результаты вычисления функции ЛИНЕЙН.
Таблица 3.
1. Запишем полученное уравнение парной регрессии:
.
2.
Для вычисления парного коэффициента
воспользуемся статистической функцией
КОРРЕЛ. Полученное значение
показывает, что между годовым
оборотом и размером торговой площади
существует очень высокая прямая
функциональная связь.
Для расчета средней ошибки аппроксимации дополним таблицу входных данных следующими расчетными полями (табл. 4.).
Таблица 4.
№ филиала |
Товарооборот y, млн.руб. |
Торговая площадь x, тыс. кв.м. |
|
|
|
1 |
2,93 |
0,31 |
2,22 |
0,71 |
0,241 |
2 |
5,27 |
0,98 |
5,72 |
-0,45 |
0,086 |
3 |
6,85 |
1,21 |
6,92 |
-0,07 |
0,011 |
4 |
7,01 |
1,29 |
7,34 |
-0,33 |
0,047 |
5 |
7,02 |
1,12 |
6,45 |
0,57 |
0,081 |
6 |
8,35 |
1,49 |
8,39 |
-0,04 |
0,004 |
7 |
4,33 |
0,78 |
4,68 |
-0,35 |
0,081 |
8 |
5,77 |
0,94 |
5,51 |
0,26 |
0,044 |
9 |
7,68 |
1,29 |
7,34 |
0,34 |
0,044 |
10 |
3,16 |
0,48 |
3,11 |
0,05 |
0,015 |
11 |
1,52 |
0,24 |
1,86 |
-0,34 |
0,223 |
12 |
3,15 |
0,55 |
3,48 |
-0,33 |
0,104 |
Средняя ошибка аппроксимации |
8,18% |
Расчетные
значения
вычисляются по полученному уравнению
парной регрессии:
путем подстановки соответствующих
значений x.
Для расчета воспользуемся математической формулой определения модуля числа, например, для первой строчки:
= ABS (0,71/2,93) = 0,241.
Средняя ошибка аппроксимации рассчитывается как среднее значение с помощью статистической функции СРЗНАЧ.
Качество построенной модели оценивается как хорошее, так как полученное значение не превышает 8 – 10%.
3.
Запишем значение коэффициента детерминации
(3 строка, первый столбец, табл. 5.1.3.).
Коэффициент детерминации показывает,
что 97% вариации объясняется факторами,
включенными в уравнение регрессии, а
3% ‑ прочими факторами.
4. Значение Fфакт находится на пересечении четвертой строки и первого столбца таблицы 3. Fфакт = 311,08. Определим Fтабл при заданном уровне значимости = 0,05 с помощью функции Excel FРАСПОБР.
= FРАСПОБР(0,05; 1; 10) = 4,964.
Сравним Fфакт и Fфакт, Fфакт > Fтабл гипотеза о случайной природе оцениваемых характеристик отклоняется. Полученное уравнение статистически значимое и надежное.
5.
Определим статистическую значимость
коэффициентов регрессии. По результатам
значений таблицы 3 seb
= 0,3; sea
= 0,29. Следовательно,
.
Критическое значение tтабл
при заданном уровне значимости
= 0,05 найдем с помощью статистической
функции Excel СТЬЮДРАСПОБР.
= СТЬЮДРАСПОБР(0,05; 10) = 2,22.
Сравним tтабл и tфакт:
17,4 > 2,22, следовательно, значение параметра b не случайно отличается от нуля и сформировалось под влиянием систематически действующего фактора х;
2,1 < 2,22, следовательно, признается случайная природа формирования значение параметра a.
6.
Выполним прогноз товарооборота у
при прогнозном значении торговой площади
х, составляющем 115% от среднего
значения. Рассчитаем прогнозное значение
.
Для этого рассчитаем среднее значение
торговой площади всех филиалов с помощью
функции СРЗНАЧ. Получим
,
следовательно,
.
Вычислим прогнозное значение
млн.
руб.