Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Анализ экспериментальных данных

.doc
Скачиваний:
22
Добавлен:
09.04.2015
Размер:
129.02 Кб
Скачать

Анализ экспериментальных данных методом корреляционно-регрессионного анализа

Общая модель статистических зависимостей

Большое количество природных явлений, явлений общественной жизни, моделирование технических устройств, технологических процессов и т.п. можно представить в виде следующей математической модели, которая будет описывать все эти разнородные явления и процессы. Есть некоторый объект (система, процесс, явление и т. д.), который мы схематично изобразим «черным ящиком», на входе подвергается воздействию , а на выходе наблюдается результирующий . Существует также случайное воздействие на объект, не поддающийся непосредственному измерению и контролю.

Переменные и в общем случае являются векторными переменными различных размерностей, т.е. , при этом все или некоторые компоненты могут быть функциями от времени.

Входная переменная описывает условия функционирования объекта. Её компоненты называют независимыми переменными или фактор-аргументами.

Компоненты вектора характеризуют поведение и результат функционирования объекта. Их называют - зависимыми выходными переменными.

Компоненты - это случайные компоненты, отражающие влияние на не учтенных на входе факторов, а также случайные ошибки в измерении анализируемых показателей.

Среди компонентов векторов и могут быть переменные следующих типов.

  • Количественные, т.е. принимающие числовые значения, измеренные в определенной шкале (например, денежный доход и сбережения семьи, численность популяции и линейные размеры особи и т.д. )

  • Порядковые, т.е. позволяющие упорядочить анализируемые объекты по степени проявления в них изучаемого свойства (уровень образования работников или уровень жилищных условий…)

  • Классификационные , позволяющие разбивать совокупность объектов на не поддающиеся упорядочению однородные по анализируемому свойству классы (профессия работника, мотивы миграции, пол особи, вид, род….)

Постановка задачи

Общая задача статистического анализа зависимостей может быть сформулирована следующим образом:

По результатам измерений (х1,у1), (х22), …, (хn,yn) исследуемых переменных построить такую функцию которая позволила бы наилучшим образом, в определенном смысле, восстанавливать значения результирующих переменных по заданным значениям входных переменных .

Причем выбор функции носит подчинённый характер, главным становится выяснение корреляционных связей.

Корреляционной связью называется важнейший частный случай статистической связи, состоящей в том, что разным значениям одной переменной соответствуют различные средние значения другой. С изменением значения признака закономерным образом изменяется среднее значение

Корреляционная связь может возникать в следующих случаях как:

Причинная зависимость результативного признака от вариации факторного признака . Например, признак - балл оценки плодородия почвы, признак - урожайность сельхоз культуры.

Сопряженность, возникающая при наличии общей причины. Например, площадь водосбора реки и её протяженность.

Взаимосвязь признаков , где каждый может возникать как причина и следствие. Например, связь между производительностью труда и уровнем его оплаты. С одной стороны, уровень оплаты – следствие производительности труда, с другой стороны – высокий уровень оплаты влечет за собой стимулирующий фактор повышения производительности труда.

Условия применения и ограничения корреляционно-регрессионного анализа

Поскольку корреляционная связь является статистической, то первым условием возможности её изучения является наличие данных по достаточно большой совокупности. Какое именно число явлений достаточно для анализа корреляционной связи зависит от требуемой точности и надежности параметров связи, от числа факторов…Обычно считают, что число наблюдений должно быть не менее чем в 5-6 раз, а лучше в 10 раз больше числа факторов. Ещё лучше, если число наблюдений в сотни раз больше числа факторов, тогда закон больших чисел обеспечивает эффективное взаимопогашение случайных отклонений от закономерного характера связи признаков.

Вторым условием закономерного проявления корреляционной связи служит условие, обеспечивающее надежное выражение закономерности в средней величине, т.е. необходима достаточна однородность совокупности. Например, для выяснения влияния комбикормов на повышения жирности молока у коров, следует рассматривать коров одной породы.

Третьим условием является необходимость подчинения распределения совокупности по результативному и факторным признакам нормальному закону распределения вероятностей. На практике эта предпосылка выполняется приближенно.

Основные понятия и формулы, применяемые при корреляционно-регрессионном анализе

Генеральная выборка – если набор данных содержит информацию о каждом элементе группы или обо всех возможных измерениях, говорят, что такой набор данных представляет генеральную совокупность

Выборка – если измерения проводятся только на некотором подмножестве генеральной совокупности или выполняется лишь часть всех возможных измерений, такой набор данных называется выборкой. При использовании выборочного метода исследования следует позаботиться о получении репрезентативной выборки, Чаще всего в ее качестве используют случайную выборку.

Случайный отбор – такой метод формирования выборки, при котором в нее с одинаковой вероятностью могут попасть все элементы генеральной совокупности.

Среднее арифметическое – сумма всех входящих в набор значений, деленная на их количество.

Математическое ожидание – есть сумма значений, входящих в выборку, делённая на их количество. При очень большом количестве элементов в выборке математическое ожидание с большой вероятностью будет близко к среднему арифметическому

,

Отклонение – разность между значениями, входящими в выборку величины и средним выборочным значением.

Стандартное отклонение – значение, характеризующее диапазон разброса входящих в набор данных величин возле среднего арифметического.

Дисперсия – стандартное отклонение, возведенное в квадрат.

Среднее квадратичное отклонение: - квадратный корень из дисперсии

Коэффициент вариации характеризует относительную меру отклонения измеренных значений от среднеарифметического:

Чем больше значение коэффициента вариации, тем относительно больший разброс и меньшая выравненность исследуемых значений. Если коэффициент вариации меньше 10%, то изменчивость вариационного ряда принято считать незначительной, от 10% до 20% относится к средней, больше 20% и меньше 33% к значительной и если коэффициент вариации превышает 33%, то это говорит о неоднородности информации и необходимости исключения самых больших и самых маленьких значений

Относительное отклонение:

Корреляция – статистика, описывающая связь между случайными величинами. Если связь линейная – то используется коэффициент корреляции, в противном случае корреляционное отношение

Коэффициент корреляции может принимать значения . Отрицательные значения свидетельствуют об обратной связи признаков у и х, положительные - о прямой.

Обычно считают связь сильной, если , средней – при и слабой – при

Оценив корреляционные связи в нашем эксперименте, переходим к моделированию процесса.

Удобной математической моделью такого рода зависимостей является уравнение вида

, где случайная переменная. Это уравнение называется уравнением регрессии, функция - функцией регрессии. Относительно случайной величины обычно делается предположение, что она имеет нормальное распределение с нулевым математическим ожиданием.

Одним из широко распространенных критериев оптимальности функции регрессии является критерий минимума суммы квадратов. Формулируется так: пусть имеются наблюдения (х11), (х22), … (хn,yn) . Функция f(x) подбирается таким образом, чтобы сумма квадратов расстояний была минимальной.

Тип функции регрессии определяется исходя из эксперимента

ментальных данных, чаще всего – линейный, полиноминальный, показательный, степенной, логарифмический. В нашем случае подбираем линейный тип : .

Показатели корреляционной связи, вычисленные по ограниченной совокупности, являются лишь оценками той или иной совокупности, оценками той или иной статистической закономерности, поскольку в любом параметре сохраняется элемент не полностью погасившейся случайности, присущей индивидуальным значениям признаков. Поэтому необходима статистическая оценка степени точности и надежности параметров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков. Средняя ошибка для коэффициента парной регрессии а вычисляется так:

где - расчетные значения результативного признака для i-й единицы:

n-2 – число степеней свободы (теряются 2 степени свободы, поскольку парная регрессия имеет два параметра)

Проверяем гипотезу значимости а. С этой целью находится соотношение коэффициента к его средней ошибке, т. е. t-критерий Стьюдента:

Сравниваем его значение с табличным по заданному уровню достоверности и соответствующим степеням свободы. Если расчетный t-критерий больше табличного, то гипотезу о несущественном коэффициенте а можно отклонить.