- •Отчет по дисциплине «Обработка экспериментальных данных»
- •Введение
- •1 Описание объекта исследования
- •1.1 Определение и функции трансформаторного масла
- •1.2 Система признаков
- •1.3 Основные понятия
- •2 Описание данных
- •2.1 Источники данных
- •2.2 Матрица признаков
- •2.3 Матрица данных
- •3 Подготовка данных для работы в пап «deductor»
- •3.1 Общие сведения о пап «deductor»
- •3.2 Подготовка бд к импорту в пап «deductor»
- •3.3 Анализ выполнения импорта, оценка качества данных на пригодность к анализу
- •4 Оценка качества данных и процедура очистки
- •4.1 Общие сведения
- •4.2 Оценка качества данных
- •4.3 Выявление дубликатов и противоречий
- •5 Первичный анализ данных
- •5.1 Частотный анализ данных
- •5.1.1 Теоретические сведения
- •5.1.2 Частотные таблицы
- •5.2 Анализ взаимосвязей между признаками (корреляционный анализ)
- •5.2.1 Теоретические сведения
- •5.2.2 Матрица парной корреляции и анализ зависимостей
- •6 Моделирование и анализ зависимостей между количественными признаками
- •6.1 Линейная регрессия
- •6.2 Линейный многомерный регрессионный анализ
- •6.3 Нелинейная регрессия
- •7 Моделирование и анализ зависимостей между качественными признаками
- •7.1 Анализ методов исследования качественных данных
- •7.2 Логистическая регрессия
- •8 Факторный анализ
- •Заключение
- •Список использованных источников
6 Моделирование и анализ зависимостей между количественными признаками
Если расчёт корреляции характеризует силу связи между двумя переменными, то регрессионный анализ служит для определения вида этой связи и дает возможность для прогнозирования значения одной (зависимой) переменной отталкиваясь от значения другой (независимой) переменной.
Для проведения линейного регрессионного анализа зависимая переменная должна иметь порядковую шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Те же условия применения справедливы и для пробит-анализа. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномальная логистическая регрессия. И, наконец, можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.
Простая линейная регрессия:
Этот вид регрессии лучше всего подходит для того, чтобы продемонстрировать основополагающие принципы регрессионного анализа. В таком случае говорят о линейной связи:
,
где b — регрессионные коэффициенты, a — смещение по оси ординат.
Смещение по оси ординат соответствует точке на оси у (вертикальной оси), где прямая регрессии пересекает эту ось. Коэффициент регрессии b через соотношение
b=tg(a),
указывает на угол наклона прямой.
При проведении простой линейной регрессии основной задачей является определение параметров b и а. Оптимальным решением этой задачи является такая прямая, для которой сумма квадратов вертикальных расстояний до отдельных точек данных является минимальной.
Множественная линейная регрессия:
В общем случае в регрессионный анализ вовлекаются несколько независимых переменных. Это, конечно же, наносит ущерб наглядности получаемых результатов, так как подобные множественные связи, в конце концов, становится невозможно представить графически.
В случае множественного регрессионного анализа речь идѐт необходимо оценить коэффициенты уравнения
y=b1-x1+b2-x2+….+bn-xn+a,
Регрессионный анализ используется для нахождения уравнения, которое связывает зависимую переменную (отклик) с одной или несколькими независимыми переменными (предикторами).
Суть регрессионного анализа заключается в нахождении наиболее важных факторов, которые влияю на зависимую переменную.
где n — количество независимых переменных, обозначенных как х1 и хn, — некоторая константа.
Переменные, объявленные независимыми, могут сами коррелировать между собой; этот факт необходимо обязательно учитывать при определении коэффициентов уравнения регрессии для того, чтобы избежать ложных корреляций.
Для множественного анализа с несколькими независимыми переменными не рекомендуется оставлять метод включения всех переменных, установленный по умолчанию. Этот метод соответствует одновременной обработке всех независимых переменных, выбранных для анализа, и поэтому он может рекомендоваться для использования только в случае простого анализа с одной независимой переменной. Для множественного анализа следует выбрать один из пошаговых методов. При прямом методе независимые переменные, которые имеют наибольшие коэффициенты частичной корреляции с зависимой переменной, пошагово увязываются в регрессионное уравнение. При обратном методе начинают с результата, содержащего все независимые переменные, и затем исключают независимые переменные с наименьшими частичными корреляционными коэффициентами, пока соответствующий регрессионный коэффициент не оказывается незначимым.
Наиболее распространенным является пошаговый метод, который устроен так же, как и прямой метод, однако после каждого шага переменные, используемые в данный момент, исследуются по обратному методу. При пошаговом методе могут задаваться блоки независимых переменных; в этом случае заданные блоки на одном шаге обрабатываются совместно.
Нелинейная регрессия:
Многие связи по своей природе, то есть в реальной жизни, либо являются строго линейными, либо их можно привести к линейному виду.
Бинарная логистическая регрессия:
С помощью метода бинарной логистической регрессии можно исследовать зависимость дихотомических переменных от независимых переменных, имеющих любой вид шкалы.
Как правило, в случае с дихотомическими переменными речь идѐт о некотором событии, которое может произойти или не произойти; бинарная логистическая регрессия в таком случае рассчитывает вероятность наступления события в зависимости от значений независимых переменных.
Вероятность наступления события для некоторого случая рассчитывается по формуле
,
где
, X1—
значения независимых переменных, b1 —
коэффициенты, расчёт которых является
задачей бинарной логистической регрессии,
a—
некоторая константа.
Если для p получится значение меньшее 0,5, то можно предположить, что событие не наступит; в противном случае предполагается наступление события.
Мультиномиальная логистическая регрессия:
Этот метод является вариантом логистической регрессии, при которой зависимая переменная не является дихотомической, как при бинарной логистической регрессии, а имеет больше двух категорий. В то время как, при бинарной логистической регрессии не-зависимая переменная может иметь интервальную шкалу, то мультиномиальная логисти-ческая регрессия пригодна только для категориальных независимых переменных, причѐм имеет значение, относятся ли они к шкале наименований или к порядковой шкале. Конеч-но же, не исключается возможность задания в качестве ковариат переменных, имеющих интервальную шкалу.
Порядковая регрессия:
Порядковая регрессия предназначена для целевой переменной, принадлежащей к порядковой шкале. Независимые переменные и здесь должны быть категориальными (то есть иметь номинальную или порядковую шкалу), однако в качестве ковариат допускается применение порядковой регрессии.
Коэффициент детерминации R2 – показатель, насколько качественными являются данные, изменяется от 0 до 1 и чем ближе к 1, тем лучше регрессионная модель.
В общем виде регрессионная модель имеет вид уравнения (2):
Y = a0 + X1*a1 + X2*a2 +...+ Xn*an + ɛ (2)
где Y – зависимая переменная (отклик);
X1, X2,…Xn – независимые переменные (регрессоры);
ɛ - ошибка, учитывающая суммарное влияние факторов на модель;
а0, а1,…аn - коэффициенты модели (параметры);
Таким образом, задача сводится к подбору коэффициентов ai. Он производится методом наименьших квадратом (МНК). [6]
