- •Вопросы к экзамену и зачету по курсу
- •“Статистические методы обработки данных в экологии”
- •Сущность и цели обработки данных
- •Основные понятия математической статистики и теории вероятности
- •Качество данных. Этапы обработки данных. Вычислительные аспекты обработки данных
- •Разновидности исследований. Шкалы измерений
- •Описательная статистика: Закон распределения случайной величины
- •Описательная статистика: Числовые характеристики случайной величины
- •Построение гистограммы распределения
- •Проверка соответствия выбранной модели закона распределения исходным данным. Критерий согласия Колмогорова. Критерий согласия ω2 (омега-квадрат)
- •Проверка статистических гипотез. Основные понятия
- •Проверка гипотезы о равенстве двух средних зависимых нормальных выборок
- •Ранги и ранжирование
- •Непараметрический критерий Вилкоксона для проверки однородности двух независимых выборок.
- •Дисперсионный анализ. Цель и задачи дисперсионного анализа.
- •Sслучайные величины, описывающие неопределенные эффекты.
- •Однофакторный дисперсионный анализ
- •Доверительный интервал для среднего
- •Доверительный интервал для разности средних. Оценка эффекта
- •Оценка эффекта
- •Доверительный интервал для разности средних. Проверка статистических гипотез с помощью доверительных интервалов
- •Проверка статистических гипотез с помощью доверительных интервалов
- •Оценка эффектов уровней фактора
- •Примерами контрастов являются
- •Двухфакторный дисперсионный анализ с пересечением уровней
- •Проверка однородности дисперсий
- •Непараметрические методы факторного анализа. Ранговый однофакторный анализ.
- •Критерий Краскела-Уолллиса.
- •Непараметрические методы факторного анализа. Ранговый двухфакторный анализ без повторений
- •Критерий Фридмана
- •Корреляционный анализ. Постановка задач статистического исследования зависимостей
- •Измерители парной статистической связи. Корреляционное отношение
- •Коэффициент корреляции как измеритель степени тесноты связи
- •Оценка показателей тесноты связи по выборочным данным
- •Оценка показателя тесноты связи по выборочным данным. Анализ коэффициента корреляции
- •Оценка показателей тесноты связи по выборочным данным
- •Анализ коэффициента корреляции
- •Оценка степени тесноты связи при нелинейной зависимости
- •Анализ частных связей. Анализ множественных связей
- •Анализ частных связей
- •Анализ множественных связей
- •Ранговые коэффициенты корреляции
- •Коэффициент ранговой корреляции Спирмена
- •Коэффициент ранговой корреляции Кендалла
- •Зависимость между признаками, измеренными в номинальной или порядковой шкалах
- •Регрессионный анализ. Основные понятия регрессионного анализа
- •Метод наименьших квадратов
- •Простая линейная регрессия
- •Решение этих двух уравнений дает:
- •Проверка значимости линии регрессии
- •Проверка адекватности модели регрессии. Метод остатков
- •Доверительные интервалы для параметров простой линейной регрессии
- •Доверительные интервалы для линии регрессии. Доверительный интервал для значений зависимой переменной
- •Доверительный интервал для значений зависимой переменной
- •Проверка гипотез относительно параметров линейной регрессии
- •Сравнение двух линий регрессии путем сравнения параметров регрессионной модели
- •Обратная простая регрессия
- •Множественная линейная регрессия
- •Нелинейная регрессия
- •Оценка результата измерения: Виды измерений
- •Оценка результата измерения: Погрешности измерений
- •Обработка результатов наблюдений, распределенных по закону Пуассона
Описательная статистика: Числовые характеристики случайной величины
Медиана – это значение случайной величины, которое делит распределение пополам: половина значений будет больше медианы, половина – не больше.
Процентиль – значение случайной величины, которое делит распределение на соответствующие доли (25%, 75% и т. д.)
Процентной точкой порядка α (α – процентной точкой) распределения называется такое возможное значение xα этой случайной величины, для которого вероятность события X > xα равна заданной вероятности α
Квантилем порядка p называется такое возможное значение xp этой случайной величины, для которого вероятность события X < xp равна заданной вероятности p
А симметрия
Э ксцесс
Мода – это наиболее часто встречающееся значение случайной величины
В ыборочное среднее, представляющее собой оценку математического ожидания генеральной совокупности:
В ыборочная дисперсия, служащая несмещенной оценкой дисперсии генеральной совокупности:
Выборочное среднеквадратическое (стандартное) отклонение:
Описательная статистика: Точность выборочных оценок
С тандартная ошибка среднего
Анализ резко выделяющихся наблюдений
Речь пойдет об анализе наблюдений, которые сильно отклоняются от центра распределения. Иногда такие большие отклонения возникают в результате случайного просчета, неправильного считывания показаний измерительного прибора, т.е. в результате допущенной грубой ошибки. Иногда большие отклонения отражают более тонкие моменты, такие как несоответствие в отдельных точках используемой математической модели, незамеченное исследователем изменение условий эксперимента и т.п.
В любом случае с математической точки зрения речь идет о выявлении наблюдений, значение которых не согласуется с распределением основной массы данных. Выявление таких наблюдений позволяет обычно еще раз проверить условия регистрации и тем самым выявить и устранить ошибку. Если же ошибку устранить
не удается, то возможно эти наблюдения следует просто исключить из данных как нетипичные (неправдоподобные).
Рассматриваемая задача анализа разделяется на два этапа:1) выявление “подозрительных” наблюдений и 2) проверка статистической значимости их отличия от основной массы данных.
Сложность анализа резко выделяющихся (аномальных) наблюдений заключается в, казалось бы, парадоксальном выводе: чем больше объем выборки, тем с большей вероятностью следует ожидать резких выбросов в наблюдениях.
Существует несколько различных критериев для идентификации резко выделяющихся наблюдений, но все они основываются на предположении о том, что распределение наблюдаемых значений описывается нормальным законом распределения.
Один из критериев основан на статистике
здесь выборочное среднее
s – среднеквадратическое отклонение
Если V < Vкр, то резко выделяющееся значение в выборке нельзя считать промахом и его лучше оставить
Построение гистограммы распределения
Как правило область изменения данных разбивают на m одинаковых интервалов длинной Δx и вычисляется относительная плотность попадания значений в каждый интервал:
Д иаграмму построенную из прямоугольников с основанием Δx и высотами wk называют гистограммой
Отмечаются наименьшее и наибольшее значения в выборке и диапазон между ними разбивается на m равных интервалов.
Отмечаются крайние точки каждого из интервалов в порядке их возрастания, а также середины интервалов x01 , x02 , ..., x0m.
Подсчитывается количество значений данных, попавших в каждый из интервалов: n1,n2, ..., nm.
Г руппированные данные могут быть использованы для оценки математического ожидания и дисперсии:
Построение эмпирической функции распределения
Представление о характере распределения выборочных данных может давать также эмпирическая функция распределения, которой называется функция F(x) определяющая для каждого выборочного значения случайной величины X относительную частоту события X < x:
Здесь nx число наблюдений меньших X
Проверка соответствия выбранной модели закона распределения исходным данным. Критерий согласия χ2 (хи-квадрат)
Применение многих методов статистической обработки данных предполагает, что результаты наблюдений являются выборкой из генеральной совокупности с вполне определенным законом распределения, например нормальным.
Чтобы оценить, насколько выбранный теоретически закон распределения согласуется с результатами наблюдений, используют так называемые критерии согласия.
В качестве меры расхождения между эмпирическим и теоретическим законами распределения К. Пирсоном была предложена статистика:
Здесь: m ─ число значений, принятых случайной величиной, n – общее число наблюдений, pk ─ вероятность появления k-го значения в теоретическом законе распределения
Соответствие выбранного теоретического закона распределение результатам наблюдения должно быть отвергнута при уровне значимости α, если полученное в опыте значение статистики c2 превысит критическое значение c2m−1,α.
Для различного числа степеней свободы и уровня значимости составлены таблицы критических значений c2
Когда вероятность появления k-го значения в теоретическом законе распределения pk определяются с помощью параметров распределения оцененных по выборке число степеней свободы равно m-s-1. Здесь s – количество параметров теоретического закона распределения оцененных по выборке