- •Вопросы к экзамену и зачету по курсу
- •“Статистические методы обработки данных в экологии”
- •Сущность и цели обработки данных
- •Основные понятия математической статистики и теории вероятности
- •Качество данных. Этапы обработки данных. Вычислительные аспекты обработки данных
- •Разновидности исследований. Шкалы измерений
- •Описательная статистика: Закон распределения случайной величины
- •Описательная статистика: Числовые характеристики случайной величины
- •Построение гистограммы распределения
- •Проверка соответствия выбранной модели закона распределения исходным данным. Критерий согласия Колмогорова. Критерий согласия ω2 (омега-квадрат)
- •Проверка статистических гипотез. Основные понятия
- •Проверка гипотезы о равенстве двух средних зависимых нормальных выборок
- •Ранги и ранжирование
- •Непараметрический критерий Вилкоксона для проверки однородности двух независимых выборок.
- •Дисперсионный анализ. Цель и задачи дисперсионного анализа.
- •Sслучайные величины, описывающие неопределенные эффекты.
- •Однофакторный дисперсионный анализ
- •Доверительный интервал для среднего
- •Доверительный интервал для разности средних. Оценка эффекта
- •Оценка эффекта
- •Доверительный интервал для разности средних. Проверка статистических гипотез с помощью доверительных интервалов
- •Проверка статистических гипотез с помощью доверительных интервалов
- •Оценка эффектов уровней фактора
- •Примерами контрастов являются
- •Двухфакторный дисперсионный анализ с пересечением уровней
- •Проверка однородности дисперсий
- •Непараметрические методы факторного анализа. Ранговый однофакторный анализ.
- •Критерий Краскела-Уолллиса.
- •Непараметрические методы факторного анализа. Ранговый двухфакторный анализ без повторений
- •Критерий Фридмана
- •Корреляционный анализ. Постановка задач статистического исследования зависимостей
- •Измерители парной статистической связи. Корреляционное отношение
- •Коэффициент корреляции как измеритель степени тесноты связи
- •Оценка показателей тесноты связи по выборочным данным
- •Оценка показателя тесноты связи по выборочным данным. Анализ коэффициента корреляции
- •Оценка показателей тесноты связи по выборочным данным
- •Анализ коэффициента корреляции
- •Оценка степени тесноты связи при нелинейной зависимости
- •Анализ частных связей. Анализ множественных связей
- •Анализ частных связей
- •Анализ множественных связей
- •Ранговые коэффициенты корреляции
- •Коэффициент ранговой корреляции Спирмена
- •Коэффициент ранговой корреляции Кендалла
- •Зависимость между признаками, измеренными в номинальной или порядковой шкалах
- •Регрессионный анализ. Основные понятия регрессионного анализа
- •Метод наименьших квадратов
- •Простая линейная регрессия
- •Решение этих двух уравнений дает:
- •Проверка значимости линии регрессии
- •Проверка адекватности модели регрессии. Метод остатков
- •Доверительные интервалы для параметров простой линейной регрессии
- •Доверительные интервалы для линии регрессии. Доверительный интервал для значений зависимой переменной
- •Доверительный интервал для значений зависимой переменной
- •Проверка гипотез относительно параметров линейной регрессии
- •Сравнение двух линий регрессии путем сравнения параметров регрессионной модели
- •Обратная простая регрессия
- •Множественная линейная регрессия
- •Нелинейная регрессия
- •Оценка результата измерения: Виды измерений
- •Оценка результата измерения: Погрешности измерений
- •Обработка результатов наблюдений, распределенных по закону Пуассона
Проверка адекватности модели регрессии. Метод остатков
Под адекватностью построенной регрессионной модели понимается то, что никакая другая модель не дает значимого улучшения в предсказании отклика.
Если все значения откликов получены при разных значениях x, т. е. нет нескольких значений отклика, полученных при одинаковых xi, то можно провести лишь ограниченную проверку адекватности линейной модели. Основой для такой проверки являются остатки:
- отклонения от установленной закономерности:
Поскольку X – одномерная переменная, точки (xi, di) можно изобразить на плоскости в виде так называемого графика остатков. Такое представление позволяет иногда обнаружить в поведении остатков какую-то закономерность. Кроме того, анализ остатков позволяет проанализировать предположение относительно закона распределения ошибок.
В случае когда ошибки распределены по нормальному закону и имеется априорная оценка их дисперсии σ2 (оценка, полученная на основе ранее выполненных измерений), то возможна более точная оценка адекватности модели.
С помощью F-критерия Фишера можно проверить, значимо ли остаточная дисперсия s02 отличается от априорной оценки. Если она значимо больше, то имеет место неадекватность и следует пересмотреть модель.
Если априорной оценки σ2 нет, но измерения отклика Y повторялись два или более раз при одинаковых значениях X, то эти повторные наблюдения можно использовать для получения еще одной оценки σ2 (первой является остаточная дисперсия). Про такую оценку говорят, что она представляет “чистую” ошибку, поскольку, если сделать x одинаковыми для двух и более наблюдений, то только случайные изменения могут повлиять на результаты и создавать разброс между ними.
Получаемая оценка оказывается более надежной оценкой дисперсии, чем оценка, получаемая другими способами. По этой причине при планировании экспериментов имеет смысл ставить опыты с повторениями.
П редположим, что имеется m различных значений X : x1, x2, ..., xm. Пусть для каждого из этих значений xi имеется ni наблюдений отклика Y. Всего наблюдений получается:
Тогда модель простой линейной регрессии может быть записана в виде:
Н айдем дисперсию “чистых” ошибок. Эта дисперсия представляет собой объединенную оценку дисперсии σ2, если представить значения откликов yij при x = xi как выборки объема ni. В результате дисперсия “чистых” ошибок равна:
Эта дисперсия служит оценкой σ2 безотносительно к тому, корректна ли подобранная модель.
П окажем, что сумма квадратов “чистых ошибок” является частью остаточной суммы квадратов (суммы квадратов, входящей в выражение для остаточной дисперсии). Остаток для j-ого наблюдения при xi можно записать в виде:
Если возвести обе части этого равенства в квадрат, а затем просуммировать их по j и по i, то получим:
Слева в этом равенстве стоит остаточная сумма квадратов. Первый член в правой части – это сумма квадратов “чистых” ошибок, второй член можно назвать суммой квадратов неадекватности. Последняя сумма имеет m−2 степеней свободы, следовательно, дисперсия неадекватности
С татистикой критерия для проверки гипотезы H0: простая линейная модель адекватна, против гипотезы H1: простая линейная модель неадекватна, является случайная величина
При справедливости нулевой гипотезы величина F имеет распределение Фишера со степенями свободы m−2 и n−m. Гипотеза линейности линии регрессии должна быть отвергнута с уровнем значимости α, если полученное значение статистики больше α-процентной точки распределения Фишера с числом степеней свободы m−2 и n−m.
Проверка адекватности модели регрессии(см 45). Дисперсионный анализ
Проверка адекватности модели регрессии (см 45). Коэффициент детерминации
И ногда для характеристики качества линии регрессии используют выборочный коэффициент детерминации R2, показывающий, какую часть (долю) сумма квадратов, обусловленная регрессией, СКр составляет в полной сумме квадратов СКп:
Чем ближе R2 к единице, тем лучше регрессия аппроксимирует экспериментальные данные, тем теснее наблюдения примыкают к линии регрессии. Если R2 = 0, то изменения отклика полностью обусловлены воздействием неучтенных факторов, и линия регрессии параллельна оси x-ов. В случае простой линейной регрессии коэффициент детерминации R2 равен квадрату коэффициента корреляции r2 .
Максимальное значение R2=1 может быть достигнуто только в случае, когда наблюдения проводились при различных значениях x-ов. Если же в данных имеются повторяющиеся опыты, то величина R2 не может достичь единицы, как бы ни была хороша модель.