Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Афоничкин А.И. -Экономктрика- Врем ряды-часть2.doc
Скачиваний:
11
Добавлен:
01.03.2025
Размер:
5.64 Mб
Скачать

8.2. Применение стандартных статистических функций

Регрессионный анализ, для линейных зависимостей, в Excel можно проводить также, используя статистическую функцию ЛИНЕЙН, которая рассчитывает параметры линейного уравнения связи по методу наименьших квадратов. Находится уравнение связи, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.

Уравнение для прямой линии имеет следующий вид:

y = а0 + а1*t ,

где зависимое значение y является функцией времени t .

Для обозначения параметров уравнения, в модуле расчета применяется следующее обозначение. Значения m - это коэффициенты, соответствующие каждой переменной t (x), а b (a0) - это постоянная. Заметим, что y, x и m могут быть векторами. Функция ЛИНЕЙН возвращает массив

{mn;mn-1;...;m1;b}.

ЛИНЕЙН может также возвращать дополнительную регрессионную статистику.

Синтаксис функции следующий:

ЛИНЕЙН (известные_значения_y; известные_значения_x (параметр t); конст; статистика), где параметры (аргументы) функции представляют собой следующее:

Известные_значения_y - это множество значений y, которые уже известны для соотношения y = mx + b.

- Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная.

- Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная.

Известные_значения_x - это необязательное множество значений x, которые уже известны для соотношения y = mx + b.

Массив известные_значения_x может содержать одно или несколько множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут быть массивами любой формы при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (то есть интервалом высотой в одну строку или шириной в один столбец).

- Если параметр известные_значения_x опущен, то предполагается, что это массив {1;2;3;...} такого же размера как и параметр известные_значения_y.

Конст - это логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.

- Если параметр конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом.

- Если конст имеет значение ЛОЖЬ, то b полагается равным 0 и значения m подбираются так, чтобы выполнялось соотношение y = mx.

Статистика - это логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.

- Если статистика имеет значение ИСТИНА, то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику, так что возвращаемый массив будет иметь вид: {mn;mn-1;...;m1;b:sen;sen-1;...;se1;seb:r2;sey:F;df:ssreg;ssresid}.

- Если статистика имеет значение ЛОЖЬ или опущена, то функция ЛИНЕЙН возвращает только коэффициенты m и постоянную b.

Дополнительная регрессионая статистика представлена в табл.8.6.

Таблица 8.6. Описание параметров регрессионной статистики

Величина

Описание

se1,se2,...,sen

seb

r2

sey

F

df

ssreg

ssresid

Стандартные значения ошибок для коэффициентов m1,m2,...,mn.

Стандартное значение ошибки для постоянной b (seb = #Н/Д, если конст. имеет значение ЛОЖЬ).

Коэффициент детерминированности. Сравниваются фактические значения y и значения, получаемые из уравнения прямой; по результатам сравнения вычисляется коэффициент детерминированности, нормированный от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y.

Стандартная ошибка для оценки y.

F-статистика, или F-наблюдаемое значение. F-статистика используется для определения того, является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет.

Степени свободы. Степени свободы полезны для нахождения F-критических значений в статистической таблице. Для определения уровня надежности модели нужно сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН.

Регрессионая сумма квадратов.

Остаточная сумма квадратов.

Ниже приведена таблица, в каком порядке возвращается дополнительная регрессионная статистика (табл.8.7).

Таблица 8.7. Описание порядка формирования параметров регрессионной статистики

mn

mn-1

m1

m2

B

sen

sen-1

se1

se2

seb

r2

sev

F

df

ssreg

ssresid

Замечания:

- Любую прямую можно задать ее наклоном и y-пересечением:

Наклон (m):

Для того, чтобы определить наклон прямой, обычно обозначаемый через m, нужно взять две точки прямой (x1,y1) и (x2,y2); тогда наклон равен (y2 - y1)/(x2 - x1).

Y-пересечение (b):

Y-пересечением прямой, обычно обозначаемым через b, является значение y для точки, в которой прямая пересекает ось y.

Уравнение прямой имеет вид y = mx + b. Если известны значения m и b, то можно вычислить любyю точку на прямой, подставляя значения y или x в уравнение.

- Если имеется только одна независимая переменная x, можно получить наклон и y-пересечение непосредственно, используя следующие формулы:

Наклон:

ИНДЕКС(ЛИНЕЙН(известные_значения_y;известные_значения_x);1)

Y-пересечение:

ИНДЕКС(ЛИНЕЙН(известные_значения_y;известные_значения_x);2)

- Точность аппроксимации с помощью прямой, вычисленной функцией ЛИНЕЙН, зависит от степени разброса данных. Чем ближе данные к прямой, тем более точной является модель, используемая функцией ЛИНЕЙН. Функция ЛИНЕЙН использует метод наименьших квадратов для определения наилучшей аппроксимации данных. Когда имеется только одна независимая переменная x, m и b вычисляются по следующим формулам:

Проводя регрессионный анализ, система вычисляет для каждой точки

- квадрат разности между прогнозируемым значением y и фактическим значением y. Сумма этих квадратов разностей называется остаточной суммой квадратов. Затем система подсчитывает сумму квадратов разностей между фактическими значениями y и средним значением y, которая называется общей суммой квадратов (регрессионая сумма квадратов + остаточная сумма квадратов). Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем больше значение коэффициента детерминации r2, который показывает, насколько хорошо уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи между переменными.

- при вводе массива констант в качестве, например, аргумента известные_значения_x, следует использовать точку с запятой для разделения значений в одной строке и двоеточие для разделения строк. Знаки-разделители могут быть различными и зависят от установок для разных стран.

- отметим, что значения y, предсказанные с помощью уравнения регрессии, возможно не будут правильными, если они располагаются вне интервала значений y, которые использовались для определения уравнения.

Рассмотрим предыдущий пример (табл.8.1).

Решение примера:

Для получения решения необходимо выполнить следующие действия:

1) Исходные данные ввести в блок ячеек А2:В12 (рис.8.4).

Поместить курсор в ячейку В20, на панели инструментов выбрать кнопку «Мастер функций» на стандартной панели инструментов, появится диалоговое окно «Мастер функций - шаг 1 из 2» (рис.8.7).

Рисунок 8.7. Диалоговое окно выбора функции ЛИНЕЙН

2. В поле «Категория» выбрать «Статистические», в поле «Функции» - «Линейн», нажать кнопку «ОК». На экране появится диалоговое окно «Линейн» (рис.8.8), в поле «Изв_знач_y» выбрать ссылку на y, щелкнув на рабочем листе правой кнопкой мыши и выделив блок ячеек В3:В12, а в поле «Изв_знач_х» сослаться на ячейки А3:А12, в которых помещены значения параметра t, нажать кнопку «ОК». Это выразится следующей формулой: =ЛИНЕЙН(B3:B12;A3:А12)

Рисунок 8.8. Диалоговое окно ввода параметров функции ЛИНЕЙН

В выделенной ячейке В20 появится одно из значений массива (параметр а1 ), что представлено на рис.8.9.

Рисунок 8.9. Электронная таблица расчета функции ЛИНЕЙН

2. Теперь для доступа к отдельным элементам массива используется функция ИНДЕКС.

Синтаксис функции:

=ИНДЕКС(массив; номер_строки; номер_столбца), где аргументами функции являются:

Массив - это интервал ячеек или массив констант.

Номер_строки - это номер строки в массиве, из которой нужно возвращать значение. Если парметр номер_строки опущен, то аргумент номер_столбца нужно задавать обязательно.

Номер_столбца - это номер столбца в массиве, из которого нужно возвращать значение. Если номер_столбца опущен, то аргумент номер_строки нужно задавать обязательно.

Для ввода функции, вначале необходимо видоизменить формулу в ячейке B20 и записать функцию индексирования

B20: = ИНДЕКС(ЛИНЕЙН($B$3:$B$12;$А$3:$А$12;1;1);1;1).

Затем скопировать формулу из ячейки В20 в диапазон ячеек В21:C24 и в формулах заменить номера строк и столбцов соответственно их нумерации в массиве.

Другой способ расчета данных по массиву следующий. При вводе данных в окно диалога (рис.8.8), необходимо курсором отметить две ячейки (В20:С20) и определить вводимые в окне диалога значения как массив, для чего, после ввода всех необходимых данных, нужно нажать клавиши CTRL+SHIFT+ENTER. Определятся две строки, начиная с ячейки В20, в которой запишутся параметры уравнения связи. При расчетах получаются следующие значения:

Переменная Х1

У-пересечение

42,33333333

2362,666667

Результаты решения приведены на рис.8.10.

Рис. 8.10. Результаты решения линейного уравнения регрессии.

Таким образом, система Excel представляет пользователю обширный набор инструментов для решения задач статистического анализа данных.