
- •Министерство образования и науки российской федерации
- •Тема № 1. Расчет абсолютных и относительных статистических величин
- •Методические указания
- •Контрольный пример
- •Тема № 2. Расчет средних величин
- •Методические указания
- •3.Дисперсия (д или 2) и среднее квадратическое отклонение
- •Контрольный пример
- •Тема № 3. Определение характеристик генеральной совокупности по выборочным характеристикам
- •Методические указания
- •Контрольный пример
- •Индивидуальные задания
- •Тема № 4. Определение показателей динамического ряда
- •Методические указания
- •Контрольный пример
- •Индивидуальные задания
- •Тема 5. Определение основной тенденции
- •Выполнение задания в среде Microsoft Exсel
- •Контрольный пример
- •Индивидуальные задания
- •Тема №6. Индексный анализ
- •Методические указания
- •Контрольный пример
- •1 Вариант.
- •2 Вариант
- •Индивидуальные задания
- •Тема №7. Статистическое изучение взаимосвязей. Кореляционно-регрессионный анализ Методические указания
- •1. Выбор уравнения регрессии.
- •2. Оценка параметров (a,b,c..) в выбранной модели.
- •Показатели тесноты связи:
- •Выполнение задания в среде Microsoft Exсel с использованием встроенных функций
- •Контрольный пример
- •Расчетная часть
- •Аналитическая записка
- •Индивидуальные задания
- •Литература
Выполнение задания в среде Microsoft Exсel с использованием встроенных функций
В среде Excel получение параметров регрессионной зависимости и некоторых статистических оценок может быть выполнено с использованием встроенных функций. Основными из них можно считать ЛИНЕЙН, ЛГРФПРИБЛ, НАКЛОН, РОСТ, ПРОГНОЗ и др.
Функция ЛИНЕЙН рассчитывает статистику для ряда с применением метода наименьших квадратов с целью нахождения параметров прямой линии, которая наилучшим образом аппроксимирует имеющиеся данные. Результатом решения является совокупность ячеек (массив), в котором представлены коэффициенты a 0, a 1,…, a к , а также дополнительные параметры, характеризующие значимость полученных результатов, и называемые дополнительной регрессионной статистикой. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.
Заметим, что для использования встроенных функций перед заданием параметров необходимо выделить блок ячеек, в которые будут переданы результаты расчетов (размерность должна быть равна 5* N) и после указания параметров необходимо нажать Cntr+Shft+Enter (для использования функции как формулы массива).
Уравнение для прямой линии имеет следующий вид:
Y теор = a 0 + a1X1 + a 2X 2 + ...+ a k X k,,
где: Y теор - зависимое значение является функцией независимого значения Х.
а0, а1, а2 , …,a k - коэффициенты, соответствующие каждой независимой переменной X k .
Для получения результатов применяется следующий синтаксис функции (способ обращения): ЛИНЕЙН(Известные значения Y;Известные значения X;Константа; Статистика).
Известные значения Y - это множество фактических значений Y, которые известны по условию задачи.
Известные значения Х - это необязательное множество значений Х, которые уже известны. Так как функция ЛИНЕЙН может быть использована для решения задач множественной регрессии, то массив Х может содержать одно или несколько множеств переменных.
Константа - это логическое значение, которое указывает, требуется ли, чтобы константа а0 в результате решения была равна 0.
· Если конст имеет значение ИСТИНА или опущено, то а0 вычисляется обычным образом.
· Если конст имеет значение ЛОЖЬ, то а 0. полагается равным 0 и значения a1, …, a к подбираются так, чтобы выполнялось соотношение
Y теор = a1X 1 + a 2X 2 + ...+ a k X k..
Статистика - это логическое значение, которое указывает, требуется ли вернуть дополнительную информацию по регрессии.
Если статистика имеет значение ИСТИНА, то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику. При этом результаты решения (возвращаемый массив ячеек) будут иметь вид:
-
аn
ак-1
…
а1
а0
SEn;
SEn-1;
...;
SE1;
SE0
r2;
sey
F;
df
ssreg;
ssresid.
Если статистика имеет значение ЛОЖЬ или опущена, то функция ЛИНЕЙН возвращает только коэффициенты а к и постоянную а 0.
Обозначения переменных, принятые в дополнительной регрессионной статистике представлены в таблице.
Величина |
Описание |
SEn; SEn-1; ... ; SE1;SE0 |
Стандартные значения ошибок для коэффициентов аn… а1 ; а0. |
r2 |
Коэффициент детерминации (детерминированности). |
sey |
Стандартная ошибка для оценки У. |
F |
F-статистика, или F-наблюдаемое значение. F-статистика используется для определения того, является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет. |
df |
Число степеней свободы, необходимых для нахождения F-критических значений в статистической таблице или с использованием функции FРАСПОБР. Для определения уровня надежности модели нужно сравнить критическое значение с F-статистикой, получаемой в результате выполнения функции ЛИНЕЙН. |
|
Регрессионная сумма квадратов, равная разности общей суммы квадратов (сумма квадратов разностей между фактическими значениями Yi и средним значением Yсред.) и остаточной суммы квадратов. |
|
Остаточная сумма квадратов или сумма квадратов разностей между фактическими значениями Yi и теоретическими Yti, полученными из уравнения регрессии. |
Заметим, что общая сумма квадратов равна сумме регрессионной суммы квадратов и остаточной суммы квадратов, т.е sstotal = ssreg + ssresid, а коэффициент детерминации (детерминированности) есть отношение регрессионной и общей сумм квадратов:
Коэффициент детерминированности r2 (R2) всегда должен находиться в диапазоне от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различия между фактическим и оценочным значениями У.
Покажем на примере использование функции ЛИНЕЙН для решения задачи нахождения множественной линейной регрессии.
Предположим, что застройщик оценивает стоимость группы небольших офисных зданий в традиционном деловом районе.
Застройщик может использовать множественный регрессионный анализ для оценки стоимости офисного здания в заданном районе на основе следующих переменных. Введем обозначения переменных:
Переменная |
Смысл переменной |
У |
Оценочная цена здания под офисы |
x1 |
Общая площадь в квадратных метрах |
x2 |
Количество офисов |
x3 |
Количество входов |
x4 |
Время эксплуатации здания в годах |
В этом примере предполагается, что существует линейная зависимость между каждой независимой переменной (x1, x2, x3 и x4) и зависимой переменной (Y), то есть стоимостью здания под офис в данном районе.
Для решения задачи застройщиком были получены данные по одиннадцати зданиям из имеющихся 1500, представленные в таблице.
№№пп |
Общая площадь (кв. м.) Х1 |
Кол-во офисов
Х2 |
Кол- во входов
Х3 |
Срок эксплуатации (лет) Х4 |
Стоимость (тыс. у. е.)
Y |
1 |
2310 |
2 |
2 |
20 |
142 |
2 |
2333 |
2 |
2 |
12 |
144 |
3 |
2356 |
3 |
1,52 |
33 |
151 |
4 |
2379 |
3 |
2 |
43 |
160 |
5 |
2402 |
2 |
3 |
63 |
139 |
6 |
2426 |
4 |
2 |
23 |
169 |
7 |
2448 |
2 |
1,5 |
99 |
126 |
8 |
2471 |
2 |
2 |
34 |
142 |
9 |
2494 |
3 |
3 |
23 |
163 |
10 |
2517 |
4 |
4 |
55 |
169 |
11 |
2540 |
2 |
3 |
22 |
149 |
При вводе в качестве массива в среде Excel формулы ={ЛИНЕЙН(E2:E12;A2:D12;ИСТИНА;ИСТИНА)} были получены следующие результаты:
а4 |
-0,206 |
а3 |
3,02 |
а2 |
13,21 |
а1= |
0,011 |
а0= |
88,2 |
SE4; |
0,045 |
SE3; |
1,88 |
SE2= |
1,44 |
SE1= |
0,02 |
SE0= |
43,4 |
r2= |
0,960 |
sey |
3,49 |
|
#Н/Д |
|
#Н/Д |
|
#Н/Д |
F= |
36,506 |
df= |
6 |
|
#Н/Д |
|
#Н/Д |
|
#Н/Д |
Ssreg= |
1779,4 |
Ssresid= |
73,11 |
|
#Н/Д |
|
#Н/Д |
|
#Н/Д |
Sstotal = ssreg + ssresid |
1852,51 |
|
|
|
|
|
|
|
|
Уравнение множественной регрессии Y = a0 + a1Xi1 + a2X2 +...+ ak X k теперь может быть получено из строки 1:
Y = 88,2 + 0,011X i1 + 13,21X 2 + 3,02 X 3 - 0,206 X 4
Теперь арендатор может сделать прогнозы относительно стоимости зданий в данном районе. Например, можно определить оценочную стоимость здания под офисы в том же районе, которое имеет площадь 2500 квадратных метров, три офиса, два входа, зданию 25 лет, используя следующее уравнение:
Y = 88,2 + 0,011×2500 + 13,21×3 + 3,02×2 0,206×25 = 156,22 тыс. у.е.
Для оценки значимости параметров уравнения множественной регрессии воспользуемся оценками на основе анализа коэффициента детерминации (детерминированности) r2 и F-критерия Фишера.
Коэффициент детерминированности r2 равен 0,960, что указывает на весьма высокую зависимость между независимыми переменными и стоимостью здания. Использование F-критерия позволит определить, является ли полученный результат значимым.
Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны редкие 11 образцов зданий, для которых статистический анализ вывел сильную взаимозависимость.
Для нахождения Fкрит воспользуемся функцией FРАСПОБР(0,05;4;6), равная 4,533677, т.е. Fкрит=4,533677.
Если F-расчетное больше, чем F-критическое, то взаимосвязь между переменными является значимой. В нашем случае расчетное F-значение равно 35,509 (по данным функции ЛИНЕЙН), что заметно больше чем F-критическое значение, равное 4,53. Следовательно, полученное уравнение регрессии может быть использовано для прогнозов оценочной стоимости зданий в данном районе.
Проведем оценку значимости коэффициентов регрессии на примере анализа коэффициентов регрессии. Для этого в соответствии с изложенной выше методикой рассчитаем t-критерий Стьюдента:
.
Полученные коэффициенты и сведем данные в таблицу.
-
Переменная
Обозначения
t-наблюдаемое (рассчитанное) значение
Общая площадь
ta1
5,1
Количество офисов
ta2
31,3
Количество входов
ta3
4,8
Срок эксплуатации
ta4
17,7
Для оценки статистической значимости необходимо рассчитать критическое значение tкрит, которое для =0,05 (при доверительной вероятности 0,95) и числа степеней свободы (11-5)=6 имеет значение 1,94.
Так как для всех факторов t-наблюдаемые (рассчитанные) значения превышают критическое значение tкрит, равное 1,94; следовательно, все переменные, использованные в уравнении регрессии, значимы и могут быть использованы для предсказания оценочной стоимости здания под офис в данном районе.
Для расчета коэффициента корреляции в Excel может быть использована функция КОРРЕЛ. Она позволяет рассчитать коэффициент корреляции в условиях парной корреляции и таким образом сделать вывод о наличии или отсутствии взаимосвязи между двумя признаками.
Для обращения к функции необходимо задать параметры двух массивов, характеризующих два изучаемых признака, взаимосвязь между которыми предполагается определить.
КОРРЕЛ(массив1; массив2).