Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛР6-2007Простая регрессия.doc
Скачиваний:
7
Добавлен:
26.11.2018
Размер:
202.75 Кб
Скачать

Лабораторная работа №6 Простая линейная регрессия

Анализ двумерных данных включает в себя три основных цели:

  1. Описание и понимание взаимосвязи двух переменных X и Y.

  2. Прогнозирование и предсказание нового наблюдения.

  3. Корректировка и управление процессом.

Существует два вида анализа двумерных данных, представленных переменными X и Y: корреляционный анализ, позволяющий оценить степень взаимосвязи между переменными X и Y, и регрессионный анализ, определяющий форму связи между этими переменными.

Регрессионный анализ всегда проводится после корреляционного анализа, когда между переменными установлена взаимосвязь. Регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, Y на основании X), или показывает, как можно управлять одной переменной с помощью другой.

Одной из главных задач регрессионного анализа является определение формы зависимости между переменными X и Y. Для этого необходимо построить уравнение регрессионной связи между Y и X (уравнение регрессии) следующего вида:

Y = f(x) + ,

в котором f(x) называется функцией регрессии, а  – величина, учитывающая случайные воздействия. Для выборочных данных уравнение регрессионной связи удобно представить следующим образом:

При наличии случайной составляющей i значения yi имеют определенный разброс. Поэтому нет смысла подбирать функцию регрессии, проходящую через все точки xi. Основное правило подбора вида функции регрессии заключается в том, чтобы все точки диаграммы рассеяния были сконцентрированы около графика этой функции.

На практике, поскольку мы располагаем выборочными данными, невозможно точно построить функцию регрессии, можно только получить ее оценку, которую обозначим как . Уравнение, включающее оценку для функции регрессии, называется выборочным уравнением регрессии и имеет вид: . Построив «выборочную» функцию регрессии далее необходимо проверить достоверность функции и ее параметров, а также провести оценку неизвестных значений (прогноз) зависимой переменной Y.

Простейшей, с точки зрения анализа, является линейная взаимосвязь между X и Y, которая выражается в том, что точки на диаграмме рассеяния случайным образом группируются вдоль прямой линии, имеющей наклон (вверх или вниз). По выборке можно построить выборочную линейную функцию регрессии вида , которая является оценкой линейной функции регрессии f(x, 0, 1). Таким образом, выборочное уравнение линейной регрессии имеет вид:

.

Коэффициенты b0, b1 являются оценками параметров 0, 1. Для вычисления коэффициентов b0, b1 используется метод наименьших квадратов (МНК), который характеризуется наименьшей суммой квадратов отклонений значений переменной Y от прямой. Это означает, что прямая на диаграмме рассеяния будет проходить «достаточно близко» к точкам (xi, yi).

Коэффициент b1 определяет наклон прямой (его часто называют коэффициентом регрессии). При увеличении значения переменной X ровно на единицу значение переменной Y в среднем увеличивается (если b1>0) или уменьшается (если b1<0) на b1 единиц.

Коэффициент b0 (постоянный член, или константа регрессии) определяет сдвиг прямой, то есть такое значение переменной Y, при котором значение переменной X равно нулю. При использовании МНК сдвиг определяется таким образом, чтобы прямая проходила через точку (), где – средние значения переменных X и Y соответственно. В тех случаях, когда нулевое значение переменной X лишено смысла, сдвиг рассматривается как необходимая характеристика для построения функции регрессии и его не следует интерпретировать.

В Excel используются три метода построения выборочной функции линейной регрессии: команда Добавить линию тренда, инструмент анализа Регрессия и соответствующие статистические функции.

Добавление линейного тренда

Задание 1.

Построить график линейной зависимости между стоимостью и площадью жилого объекта.

  1. Откройте программу Excel. Щелкните на кнопке Сохранить на Панели быстрого доступа. В появившемся диалоговом окне откройте папку Статистика ххх и задайте имя файлу Простая регрессия.xlsх. Зашифруйте файл, задав пароль.

  2. Откройте файл Двумерные данные.xlsx. Щелкните на ярлыке Лист1. Выделите диапазон данных вместе с построенной диаграммой рассеяния и скопируйте его в файл Простая регрессия.xlsх на Лист1 в тот же диапазон. Закройте файл Двумерные данные.xls.

  3. На диаграмме рассеяния щелкните правой кнопкой мыши на любой точке данных и в контекстном меню выберите команду Добавить линию тренда… Появится диалоговое окно Формат линии тренда (см. рисунок ниже).

  1. В диалоговом окне на вкладке Параметры линии тренда установите тип Линейная.

  2. В области Название аппроксимирующей (сглаженной) кривой выберите опцию автоматическое:.

  3. Убедитесь, что флажок пересечение кривой с осью Y в точке: не установлен.

  4. Установите флажки показывать уравнение на диаграмме и поместить на диаграмму величину достоверности аппроксимации (R^2). Щелкните на кнопке Закрыть.

  5. Выделите текст с уравнением регрессии и значением R2 и перетащите на свободное место диаграммы.