
- •Методический материал для подготовки к зачету по предмету: «Анализ данных»
- •Описательная статистика
- •Критерий Хи-квадрат
- •3. Сравнение средних. Дисперсионный анализ
- •1. Общая постановка задачи
- •2. Понятие зависимой переменной и фактора
- •3. Тип данных для дисперсионного анализа
- •4. Однофакторный и двухфакторный дисперсионный анализ
- •5. Формулировка гипотез для двухфакторного анализа
- •6. Эффекты взаимодействия
- •8. Критерий Левене об однородности дисперсий.
- •9. Ограничения дисперсионного анализа и теста Стьюдента
- •10. Зависимые и независимые выборки
- •11. Непараметрические аналоги (Критерий знаков, Манна-Уитни, Вилкоксона, Краскела-Уоллиса, Фридмана).
- •4. Регрессионный анализ
- •6 Этапов регрессионного исследования
- •Уравнение линейной регрессии
- •Значимость коэффициентов линейной регрессии
- •Коэффициент детерминации
- •Кластерный анализ
- •Понятие расстояния
- •Основные метрики, используемые при кластеризации.
- •Расстояние между кластерами
Коэффициент детерминации
Коэффициент детерминации вычисляется как отношение объяснимой вариации к общей вариации.
Коэффициент детерминации – это мера вариации зависимой переменной, которая определяется линией регрессии и независимой переменной. Коэффициент обозначается r2
(0,1) => 0-вся вариация не объяснима; 1 вся вариация объяснима.
* если r = 0,922, то r2 = 0,85 или 85%
** лучше, чтобы r2 > 81%
Для линейной парной регрессии коэф. детерминации совпадает с коэф. корреляции в квадрате.
Представление о нелинейной и множественное линейной регрессии
В случае множественного регрессионного анализа речь идет необходимо оценить коэфф. Уравнения y=a*x1+a*x2+…+b+ e (е-остатки)
Регрессионные коэфф. Независимы, если зависимы - мультиколлинеарность.
Остатки
Норамльность распределения остатков
Остаток (Residual) –разница между наблюдаемым и предсказанным значением зависимой переменной.
Ограничения регрессионной модели
Утверждение: основанная масса точек должна лежать близко к регрессионной прямой (остатки должны быть случайны)
Гомоскедантичность - равная дисперсия распределения остатков, одинаковый разброс.(нормальное распределение остатков)
Гетероскедантичность (наоборот) (ненормальное распределение остатков)
Нарушение Гомоскедантичности–потеря информации.
5. Факторный анализ
1. Общая постановка задачи факторного анализа - класс методов, используемых, главным образом, для сокращения числа переменных и их обобщения.
Факторный анализ используют в следующих ситуациях.
Для определения основных факторов, которые объясняют связи в наборе переменных. Например, можно использовать набор высказываний об образе жизни для измерения психографических профилей потребителей. Затем эти высказывания подвергают факторному анализу, чтобы определить основные психографические факторы.
Для определения нового, меньшего по размеру, набора некоррелирующих переменных, заменяющих исходный набор коррелирующих переменных, на основании которого дальше выполняется многомерный анализ (регрессионный или дискриминантный).
Для преобразования большего по размеру набора в меньший набор ясно выраженных переменных для использования их в последующем многомерном анализе.
Существует два метода факторного анализа — анализ главных компонент и анализ общих факторов. При анализе главных компонент учитывают всю дисперсию данных. Анализ общих факторов. Метод факторного анализа, который оценивает факторы только по общей (для всех факторов) дисперсии.
2. Корреляционная матрица - матрица попарных корреляций r между всеми возможными парами переменных, включенных в анализ. Это симметричная, неотрицательно определенная матрица.
3. Факторные нагрузки - линейные корреляции между переменными и факторами.
График факторных нагрузок - график исходных переменных, где по осям координат откладывают значения факторных нагрузок.
4. Матрица факторных нагрузок - содержит факторные нагрузки всех переменных по всем выделенным факторам.
Значения фактора (factor scores). Суммарные значения, определенные для каждого респондента.
5. Интерпретация факторов - для интерпретации факторов необходимо определить переменные, которые имеют высокие значения нагрузок по одному и тому же фактору. А затем этот фактор следует проанализировать с учетом этих переменных. Другое полезное средство интерпретации — графическое изображение переменных, координатами которых служат величины факторных нагрузок. Переменные в начале координат имеют небольшие нагрузки в связи с обоими факторами. Переменные, расположенные вдали от осей, связаны с обоими факторами. Если фактор нельзя четко определить с точки зрения связи с исходными переменными, то его следует пометить как неопределяемый или генеральный (общий для всех переменных).
6. Вращение факторов - вращение матрицы факторных коэффициентов преобразует их в более простую, которую легче интерпретировать.
При вращении факторов желательно, чтобы каждый фактор имел ненулевые или значимые нагрузки (коэффициенты) только для небольшого числа переменных. Аналогично, желательно, чтобы каждая переменная имела ненулевые или значимые нагрузки с небольшим числом фактором, если можно, то с одним фактором. Если несколько факторов имеют высокие значения факторных нагрузок с одной и той же переменной, то их трудно интерпретировать.
Вращение не влияет на общности и процент объясненной полной дисперсии.
Вращение называют ортогональным вращением, если при вращении сохраняется прямоугольная система координат.
7. Графическое изображения критерия "каменистой осыпи" - график зависимости собственных значений от числа факторов в порядке их убывания.
8. Определение количества факторов - для определения числа факторов предлагается несколько процедур: определение, основанное на предварительной информации; определение, основанное на собственных значениях факторов; критерий "каменистой осыпи"; определение на основе процента объясненной дисперсии; метод расщепления и критерии значимости.
Определение, основанное на предварительной информации. Иногда, руководствуясь предварительной информацией, исследователь знает, сколько факторов можно ожидать, и таким образом, может заранее определить число выделяемых факторов. После извлечения желаемого числа факторов их выделение прекращают. Большинство компьютерных программ позволяют пользователю определить число факторов, значительно упрощая применение этого метода.
Определение, основанное на собственных значениях факторов. В этом методе учитывают только факторы, собственные значения которых выше 1,0; остальные факторы в модель не включают. Собственное значение представляет значение дисперсии, обусловленной действием этого фактора. Следовательно, рассматривают только факторы с дисперсией выше 1,0. Если число переменных меньше 20, то этот метод завышает число факторов.
Определение, основанное на критерии "каменистой осыпи". Графическое изображение критерия "каменистой осыпи" представляет собой график зависимости собственных значений факторов от их номеров в порядке выделения. Для определения числа факторов используют форму графика. Обычно график имеет четкий разрыв между крутой частью кривой, где факторам свойственны большие собственные значения, и плавной хвостовой частью кривой, связанной с остальными факторами (в этом месте убывание собственных значений факторов слева направо максимально замедляется). Это плавное убывание собственных значений называется осыпь (scree). Опыт показывает, что точка, с которой начинается осыпь, указывает на действительное число факторов. Обычно число факторов, определенное по графику "каменистой осы пи'", на единицу или несколько единиц больше числа факторов, полученных методом, основанным на собственных значениях.
Определение на основе процента объясненной дисперсии. В этом методе число выделяемых факторов определяют так. чтобы кумулятивный процент дисперсии, выделяемой факторами, достиг удовлетворительного уровня. Какой уровень дисперсии считать удовлетворительным, зависит от поставленной задачи. Однако рекомендуется выделять такое число факторов, которое объясняют, по крайней мере, 60% дисперсии.
Определение, основанное на оценке надежности, выполняемой расщеплением. В этом методе выборку расщепляют напополам и факторный анализ выполняют для каждой половины. При этом оставляют только факторы с высокой степенью соответствия факторных нагрузок в двух подвыборках.
Определение, основанное на критериях значимости. Можно определить статистическую значимость отдельных собственных значений и оставить только статистически значимые факторы. Недостаток этого метода в том, что при больших размерах выборок (больше 200) многие факторы, вероятно, статистически значимые, хотя с практической точки зрения, многие из них объясняют небольшую долю полной дисперсии.