Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ватник!.doc
Скачиваний:
19
Добавлен:
07.12.2018
Размер:
1.44 Mб
Скачать

§ 6. Линейная регрессия

Из различных классов функций, используемых для описания статистической взаимосвязи, наиболее широкое распространение получил класс линейных функций вида

(6.1)

Рассмотрим соображения, которые могут привести к выбору именно этого класса функций.

1) Теория явления устанавливает линейный характер зависимости результативного признака от факторного. Такая функция, например, довольно точно описывает зависимость производственных затрат от количества произведенного продукта. Одна составляющая затрат (материалы, сырье, заработная плата основных рабочих) пропорциональна количеству произведенного продукта; другая часть (содержание зданий, вспомогательных служб, администрации и т. д.) от этого количества не зависит. Таким образом, полностью затраты описываются выражением вида (6.1).

2) Исследователя может интересовать лишь определенная сторона зависимости, а именно, ее интенсивность. Он хочет получить ответ лишь на один вопрос: на какую величину изменяется в среднем результативный признак при изменении фактора на единицу1. Ответ на этот вопрос дает значение коэффициента b (коэффициента регрессии) в уравнении (6.1).

3) Характер расположения точек корреляционного поля или форма эмпирической линии регрессии могут свидетельствовать о линейном характере связи. Так, точки корреляционного поля на рис. 6.1 располагаются вдоль некоторой прямой, что делает весьма правдоподобным предположение о линейном характере связи.

Рис. 6.1

4) Связь между признаками может быть весьма слабой (см. например, корреляционное поле на рис. 6.2). В этом случае разброс эмпирических точек относительно любой линии будет весьма велик и примерно одинаков для различных функций регрессии. В этом случае усложнение вида функции регрессии практически ничего не дает, и для анализа целесообразно использовать простейший класс функций, каковым является класс линейных функций.

Рис. 6.2

Коэффициенты линейного уравнения связи обычно допускают простую содержательную интерпретацию. Коэффициент b устанавливает пропорциональность между изменениями результативного и факторного признаков; свободный член a в некоторых случаях может быть истолкован как значение результативного признака при нулевом значении признака-фактора (рис. 6.3). Однако во многих случаях подобная интерпретация невозможна. Линейное уравнение регрессии может удовлетворительно описывать нелинейную связь в пределах ограниченной вариации фактора x. Нулевое значение признака-фактора при этом может весьма далеко отстоять от области фактической вариации этого признака (рис. 6.4).

Рис. 6.3 Рис. 6.4

Составим систему нормальных уравнений для определении параметров линейного уравнения регрессии. В это уравнение входят два параметра: a и b. Соответствующие частные производные равны:

Подставляя эти значения в систему нормальных уравнений (5.2) получим конкретный вид этой системы:

Разбивая суммы в правых частях и вынося за знаки суммирования общие множители a и b, получим систему нормальных уравнений в следующем, удобном для вычислений, виде:

(6.2)

Используя систему нормальных уравнений в форме (5.3), придем к следующей системе уравнений:

(6.3)

Эта система более удобна в теоретическом отношении. Любая из систем (6.2), (6.3) представляет собой систему уравнений линейных неизвестных a и b, и их решение не составляет труда. Так, решая систему (6.3), можно в общем виде определить искомые значения коэффициентов:

(6.4)

Для линейного уравнения связи свойство разложимости дисперсии, выражаемое равенством (5.5), выполняется.

Таблица 6.1. Данные для расчета параметров линейной регрессии

Номер детали

Обрабатываемая поверхность (x), см2

Время обработки (y), мин.

x2,

см4

xy,

см2·мин

1

100

3,0

10000

300

2

150

4,0

22500

600

3

150

4,5

22500

675

4

200

4,0

40000

800

5

250

5,0

62500

1250

6

250

4,5

62500

1125

7

250

6,0

62500

1500

8

300

5,5

90000

1650

9

400

7,0

160000

2800

10

450

6,5

202500

2925

Сумма

2500

50,0

735000

13625

Пример. Требуется исследовать зависимость продолжительности операции по обработке детали от величины обрабатываемой поверхности. Данные о десяти деталях приведены в таблице 6.1.

На основании качественного анализа мы считаем, что связь должна носить линейный характер; вид корреляционного поля (рис. 6.5) этому предположению не противоречит.

Рис. 6.5

Ищем выражение для зависимости в виде линейного уравнения регрессии; для определения коэффициентов воспользуемся системой нормальных уравнений в форме (6.2). При этом необходимо располагать значениями сумм . Все расчеты сведены в таблицу (6.1).

Система нормальных уравнений после подстановки данных таблицы приобретает следующий численный вид:

Решением системы являются следующие значения параметров:

a  2.44 мин.; b  0.0102 мин./см2.

Итак, мы получили линейное уравнение

.

Это уравнение может быть интерпретировано следующим образом: на обработку каждого квадратного сантиметра поверхности расходуется 0.0102 минуты; кроме того, 2.44 минуты расходуется на каждую деталь независимо от обрабатываемой поверхности (например, на подготовительные операции).

Прямая, описываемая полученным линейным уравнением, построена на рис. 6.5. В таблице 6.2 приведены для сопоставления фактические и регрессионные значения продолжительности обработки деталей.

Таблица 6.2. Фактические и расчетные значения затрат времени обработки

Номер детали

Обрабатываемая

поверхность (x), см2

Время обработки (y), мин.

фактическое

расчетное

1

100

3.0

3.46

2

150

4.0

3.97

3

150

4.5

3.97

4

200

4.0

4.48

5

250

5.0

4.99

6

250

4.5

4.99

7

250

6.0

4.99

8

300

5.5

5.50

9

400

7.0

6.52

10

450

6.5

7.03

Сопоставляя фактические и расчетные значения, можно сказать, что они более или менее близки. Количественно оценить степень близости можно, вычислив остаточное среднее квадратическое отклонение. Для этого следовало бы определить разности между фактическими и расчетными значениями времени обработки, возвести их в квадрат, квадраты — усреднить. Таким образом, мы получим остаточную дисперсию. Извлекая из нее квадратный корень, можно определить остаточное среднее квадратическое отклонение. Однако мы здесь этого делать не будем. В следующем параграфе мы рассмотрим важный показатель связи — коэффициент корреляции; на основе этого коэффициента могут быть в рамках одного расчета определены и параметры регрессии, и степень тесноты связи, и остаточная вариация, характеризующая точность описания связи регрессионным уравнением.