Элементы теории корреляции

Изучение разнообразных явлений сопровождается выяснением закономерностей, которым подчиняются характерные для данных явлений количественные соотношения или связи. При этом оказывается, что только для тех явлений, происхождение которых связывается с чётко учтёнными факторами, количественные соотношения или связи имеют вполне точный и определённый характер. В этом случае говорят, что количественные соотношения или связи связаны функциональнойзависимостью. Строгая функциональная зависимость реализуется редко, так как изменение одного показателя определяется не только изменением другого основного показателя, но и влиянием ряда сопутствующих второстепенных факторов. Так, при установлении взаимосвязи между показателями использования основных средств и уровня производительности труда на заводе выясняется, что на уровень производительности труда, помимо объёма затрачиваемых основных средств, влияют ещё и другие факторы - рационализация производственного процесса, организация труда и др. В отличие от функциональной зависимости связь такого характера между двумя величинами называетсястатистической.

Статистическойназывают зависимость, при которой изменение одной из величин влечёт изменение распределения другой.

Степень рассеяния возможных значений , соответствующих каждому значению, характеризует большую или меньшую тесноту связи между этими величинами. Это значит, что если влияние неучтённых факторов на изучаемую связь между величинамиинезначительно, то степень рассеяния значениймала, а связь междуиимеет большую тесноту.

В частности, статистическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой. В этом случае статистическую зависимость называют корреляционной. Например, с одинаковых по площади участков земли при равных количествах внесённых удобрений снимают различный урожай. Это объясняется влиянием случайных факторов – осадки, температура воздуха и др. Вместе с тем, как показывает опыт, средний урожай является функцией от количества удобрений, т.е. эти признаки связаны корреляционной зависимостью.

Результаты эксперимента, данные наблюдений или измерений дают совокупность значений между переменными величинами в виде таблицы. Требуется выразить эту зависимость между переменными аналитически, т.е. в виде формулы. Такая формула очень облегчает анализ изучаемой зависимости. Формулы, служащие для аналитического представления опытных данных, принято называть эмпирическими формулами. Во многих случаях характер зависимости между переменными величинами предполагается известным из каких-либо теоретических соображений и задача подбора эмпирической формулы сводится к тому, чтобы определить числовые значения параметров, входящих в формулу данного вида.

Чаще всего при подборе эмпирических формул пользуются так называемым принципом наименьших квадратов. Он основан на том, что из данного множества формул виданаилучшим образом изображающей данные значения считается та, для которой сумма квадратов отклонений наблюдаемых значений от вычисленных является наименьшей. Подбор параметров функции, основанный на этом принципе, называетсяспособом наименьших квадратов.

Необходимо помнить, что способ наименьших квадратов применяется для подбора параметров после того, как вид функции определён. Если из теоретических соображений нельзя сделать никаких выводов о том, какой должна быть эмпирическая формула, то приходится руководствоваться наглядными представлениями, прежде всего графическим изображением наблюдаемых данных. Вид функциивыбирается таким образом, чтобы график этой функции по возможности близко напоминал расположение на графике данных наблюдений.

Покажем, как практически подбираются по способу наименьших квадратов коэффициенты для функции простейшего вида . Пусть изучается система количественных признаков. В результатенезависимых опытов полученыпар чисел. Найдём по данным наблюдений выборочное уравнение прямой линии регрессиина:.Поскольку различные значенияпризнакаи соответствующие им значенияпризнаканаблюдались по одному разу, то группировать данные нет необходимости и нет надобности использовать понятие условной средней, поэтому искомое уравнение можно записать так: