- •Отчет по дисциплине «Обработка экспериментальных данных»
- •Введение
- •1 Описание объекта исследования
- •1.1 Определение и функции трансформаторного масла
- •1.2 Система признаков
- •1.3 Основные понятия
- •2 Описание данных
- •2.1 Источники данных
- •2.2 Матрица признаков
- •2.3 Матрица данных
- •3 Подготовка данных для работы в пап «deductor»
- •3.1 Общие сведения о пап «deductor»
- •3.2 Подготовка бд к импорту в пап «deductor»
- •3.3 Анализ выполнения импорта, оценка качества данных на пригодность к анализу
- •4 Оценка качества данных и процедура очистки
- •4.1 Общие сведения
- •4.2 Оценка качества данных
- •4.3 Выявление дубликатов и противоречий
- •5 Первичный анализ данных
- •5.1 Частотный анализ данных
- •5.1.1 Теоретические сведения
- •5.1.2 Частотные таблицы
- •5.2 Анализ взаимосвязей между признаками (корреляционный анализ)
- •5.2.1 Теоретические сведения
- •5.2.2 Матрица парной корреляции и анализ зависимостей
- •6 Моделирование и анализ зависимостей между количественными признаками
- •6.1 Линейная регрессия
- •6.2 Линейный многомерный регрессионный анализ
- •6.3 Нелинейная регрессия
- •7 Моделирование и анализ зависимостей между качественными признаками
- •7.1 Анализ методов исследования качественных данных
- •7.2 Логистическая регрессия
- •8 Факторный анализ
- •Заключение
- •Список использованных источников
6.3 Нелинейная регрессия
В общем случае в регрессионный анализ вовлекаются несколько независимых переменных и необходимо оценить коэффициенты уравнения.
Переменные, объявленные независимыми, могут сами коррелировать между собой; этот факт необходимо обязательно учитывать при определении коэффициентов уравнения регрессии для того, чтобы избежать ложных корреляций.
При работе с множественной регрессией, в отличие от парной, необходимо определять алгоритм анализа. Стандартный алгоритм включает в итоговую регрессионную модель все имеющие предикторы. Пошаговый алгоритм предполагает последовательное включение (исключение) независимых переменных, исходя, из объяснительного «веса». Пошаговый метод хорош, когда имеется много независимых переменных; он «очищает» модель от откровенно слабых предикторов, делая ее более компактной и лаконичной.
Дополнительным условием корректности множественной регрессии (наряду с интервальностью, нормальностью, линейностью) является отсутствие мультиколлинеарности – наличия сильных корреляционных связей между независимыми переменными. [6]
7 Моделирование и анализ зависимостей между качественными признаками
7.1 Анализ методов исследования качественных данных
Методы анализа качественных данных могут включать:
- факторный анализ - совокупность методов, которые позволяют выявлять латентные (скрытые, неявные) обобщающие характеристики структуры и механизма развития изучаемых явлений и процессов на основе существующих связей признаков (или объектов);
- кластерный анализ - методы, которые используются для классификации объектов или событий в относительно однородные группы, которые называют кластерами. То есть если данные понимать как точки в признаковом пространстве, то задача формулируется как выделение «сгущений точек», разбиение совокупности на однородные подмножества объектов, которые в каждом кластере должны быть похожи между собой и отличаться от других;
- дисперсионный анализ – метод, позволяющий исследовать влияние одной или несколько независимых переменных на одну зависимую переменную или на несколько зависимых переменных. В дисперсионном анализе исследователь исходит из предположения, что одни переменные выступают как влияющие (факторы, независимые переменные), а другие (результативные признаки, зависимые переменные) – подвержены влиянию этих факторов;
- многомерное шкалирование позволяет решить две основные задачи: получить обобщенную оценку исследуемой характеристики (а не ее отдельных аспектов), и определить, не навязывая собственного мнения респондентам, какими же признаками они руководствовались в процессе оценивания того или иного объекта исследования;
- анализ соответствий является достаточно гибким относительно вида исходных данных (это могут быть частотные данные, проценты, данные в виде рейтингов и т.д.) и обеспечивает наглядную картину взаимосвязи переменных и, таким образом, способствует возникновению новых идей и предположений относительно природы этих взаимосвязей, которые могут затем проверяться более тонкими и строгими методами анализа;
- дискриминантный анализ используется для разбиения образцов на группы с целью обнаружить общую структуру, исходя из набора измерений. Кроме того, данный метод также может быть использован для того, чтобы определить, какие переменные вносят вклад в эту классификацию;
- анализ временных рядов, например, в маркетинге, используется для прогнозирования спроса и его сезонных, циклических и случайных изменений. Он основывается на разбивке данных об объеме продаж в прошлом для прогнозирования спроса в будущем. Но существуют и более сложные модели прогноза, опирающиеся на анализ временных рядов. Например, можно ответить на вопрос, покупки каких товаров предшествуют покупке данного вида продукции. [6]
