- •Вопросы к экзамену и зачету по курсу
- •“Статистические методы обработки данных в экологии”
- •Сущность и цели обработки данных
- •Основные понятия математической статистики и теории вероятности
- •Качество данных. Этапы обработки данных. Вычислительные аспекты обработки данных
- •Разновидности исследований. Шкалы измерений
- •Описательная статистика: Закон распределения случайной величины
- •Описательная статистика: Числовые характеристики случайной величины
- •Построение гистограммы распределения
- •Проверка соответствия выбранной модели закона распределения исходным данным. Критерий согласия Колмогорова. Критерий согласия ω2 (омега-квадрат)
- •Проверка статистических гипотез. Основные понятия
- •Проверка гипотезы о равенстве двух средних зависимых нормальных выборок
- •Ранги и ранжирование
- •Непараметрический критерий Вилкоксона для проверки однородности двух независимых выборок.
- •Дисперсионный анализ. Цель и задачи дисперсионного анализа.
- •Sслучайные величины, описывающие неопределенные эффекты.
- •Однофакторный дисперсионный анализ
- •Доверительный интервал для среднего
- •Доверительный интервал для разности средних. Оценка эффекта
- •Оценка эффекта
- •Доверительный интервал для разности средних. Проверка статистических гипотез с помощью доверительных интервалов
- •Проверка статистических гипотез с помощью доверительных интервалов
- •Оценка эффектов уровней фактора
- •Примерами контрастов являются
- •Двухфакторный дисперсионный анализ с пересечением уровней
- •Проверка однородности дисперсий
- •Непараметрические методы факторного анализа. Ранговый однофакторный анализ.
- •Критерий Краскела-Уолллиса.
- •Непараметрические методы факторного анализа. Ранговый двухфакторный анализ без повторений
- •Критерий Фридмана
- •Корреляционный анализ. Постановка задач статистического исследования зависимостей
- •Измерители парной статистической связи. Корреляционное отношение
- •Коэффициент корреляции как измеритель степени тесноты связи
- •Оценка показателей тесноты связи по выборочным данным
- •Оценка показателя тесноты связи по выборочным данным. Анализ коэффициента корреляции
- •Оценка показателей тесноты связи по выборочным данным
- •Анализ коэффициента корреляции
- •Оценка степени тесноты связи при нелинейной зависимости
- •Анализ частных связей. Анализ множественных связей
- •Анализ частных связей
- •Анализ множественных связей
- •Ранговые коэффициенты корреляции
- •Коэффициент ранговой корреляции Спирмена
- •Коэффициент ранговой корреляции Кендалла
- •Зависимость между признаками, измеренными в номинальной или порядковой шкалах
- •Регрессионный анализ. Основные понятия регрессионного анализа
- •Метод наименьших квадратов
- •Простая линейная регрессия
- •Решение этих двух уравнений дает:
- •Проверка значимости линии регрессии
- •Проверка адекватности модели регрессии. Метод остатков
- •Доверительные интервалы для параметров простой линейной регрессии
- •Доверительные интервалы для линии регрессии. Доверительный интервал для значений зависимой переменной
- •Доверительный интервал для значений зависимой переменной
- •Проверка гипотез относительно параметров линейной регрессии
- •Сравнение двух линий регрессии путем сравнения параметров регрессионной модели
- •Обратная простая регрессия
- •Множественная линейная регрессия
- •Нелинейная регрессия
- •Оценка результата измерения: Виды измерений
- •Оценка результата измерения: Погрешности измерений
- •Обработка результатов наблюдений, распределенных по закону Пуассона
Корреляционный анализ. Постановка задач статистического исследования зависимостей
В математическом анализе зависимость между величинами x и y выражается функцией y = f(x), где каждому значению x соответствует одно и только одно значение y. Такая связь называется функциональной.
Для случайных величин X и Y такую зависимость можно установить не всегда. Связь между случайными величинами является не функциональной, а случайной (стохастической), при которой изменение переменной X влияет на значения переменной Y через изменение закона распределения случайной величины Y.
Таким образом задача корреляционного анализа исследование наличия взаимосвязей между отдельными группами переменных и установление тесноты (силы) связи между ними.
Порядок проведения корреляционного анализа как правило включает:
выбор показателя статистической связи анализируемых переменных
оценка значения этого показателя по имеющимся экспериментальным данным, т. е. нахождение его точечной и интервальной оценки
проверка статистической гипотезы о том, что значение показателя статистической связи значимо отличается от нуля
Измерители парной статистической связи. Корреляционное отношение
П ри функциональных преобразованиях случайных величин вида Y = ϕ(X) для нахождения математического ожидания и дисперсии случайной величины Y достаточно знать закон распределения случайной величины X:
В процессе наблюдения величины Y = ϕ(X) для каждого фиксированного значения x′ случайной величины X можно иметь разброс значений Y, обусловленный погрешностями прибора или какими-либо неконтролируемыми факторами, и можно вычислить величину дисперсии
Тогда суммарная дисперсия случайной величины Y = ϕ(X) будет состоять из двух слагаемых:
П ервое слагаемое обусловливает вклад в дисперсию от функциональной зависимости Y = ϕ(X), а второе – случайный разброс вокруг математического ожидания M[ϕ(X)]. Введем понятие квадрата корреляционного отношения
которое показывает долю дисперсии, обусловленную чисто функциональной связью ϕ(X), в полной дисперсии случайной величины Y. Это наиболее общая характеристика степени тесноты связи между случайными величинами Y и X.
Очевидно, что 0 ≤ ρ2yx ≤ 1. Стремление ρ2yx к нулю означает, что доля дисперсии, обусловленная функциональной связью, очень мала. Наоборот, стремление ρ2yx к единице показывает, что случайными изменениями Y можно пренебречь и вся дисперсия обусловлена функциональной зависимостью Y = ϕ(X).
Аналогично определяется квадрат корреляционного отношения ρ2xy переменной X по Y. Однако между ρ2yx и ρ2xy нет какой-либо простой зависимости.
Положительный корень из ρ2yx носит название корреляционного отношения, которое является показателем статистической связи между двумя случайными величинами X и Y для самой общей ситуации, когда закон распределения системы (X,Y) является произвольным.
Коэффициент корреляции как измеритель степени тесноты связи
Рассмотрим двумерную нормальную совокупность, плотность вероятности которой имеет вид
где rxy – коэффициент корреляции между случайными величинами Y и X.
Для условной плотности вероятности случайной величины Y (плотности при условии, что случайная величина X приняла определенное значение X = x) получим:
Отсюда видно, что условная плотность вероятности случайной величины Y тоже имеет нормальное распределение с математическим ожиданием
и дисперсией
характеризующей разброс случайной величины Y вокруг математического ожидания.
Тогда для квадрата корреляционного отношения получаем
т. е. корреляционное отношение для двумерного нормального распределения совпадает с коэффициентом корреляции.
Аналогично можно показать, что ρ2xy= r2yx, откуда, поскольку r2xy= r2yx, для нормально распределенных величин ρ2xy= ρ2yx=r2.
К оэффициент корреляции являются измерителям степени тесноты линейной статистической связи между случайными величинами. Формально его можно вычислить для любой двумерной системы случайных величин, однако только для совместной нормальной совокупности коэффициент корреляции имеет четкий смысл как характеристика тесноты связи.
В общем случае показатели ρ2xy и r2 связаны неравенствами
При этом возможны следующие варианты:
r2 = ρ2yx=1 только тогда, когда имеется строгая линейная функциональная зависимость Y от X
r2 < ρ2yx=1 только тогда, когда имеется строгая нелинейная функциональная зависимость Y от X
r2 = ρ2yx<1 только тогда, когда зависимость Y от X строго линейна, но нет функциональной зависимости
r2 < ρ2yx<1 указывает на то, что не существует функциональной зависимости, а некоторая нелинейная кривая “подходит” лучше, чем “наилучшая” прямая линия.
Таким образом, в качестве показателя статистической связи между двумя случайными количественными переменными X и Y следует выбрать корреляционное отношение ρyx (или ρxy) , если закон распределения системы (X,Y) вызывает сомнение. Если же можно с большой степенью уверенности считать закон распределения системы (X,Y) нормальным, то вместо корреляционного отношения следует использовать коэффициент корреляции r.