- •Кафедра Биофизики реферат «Статистическая обработка данных биологических объектов»
- •Введение
- •Основные понятия статистической обработки данных
- •Генеральная совокупность и выборка. Случайная величина и распределение данных.
- •Случайная величина и распределение данных. Основные параметры распределений
- •Классификация статистических методов
- •Математические основы статистических методов
- •Вероятность и случайные события. Типы распределений случайных величин.
- •Математическое ожидание и дисперсия
- •Оценка параметров и доверительные интервалы
- •Законы больших чисел и центральная предельная теорема
- •Методы описательной статистики
- •Представление данных в таблицах и графиках
- •Графическое представление данных
- •Проверка нормальности распределения
- •Проверка статистических гипотез и корреляционный анализ
- •Основные понятия и логика проверки гипотез
- •Ошибки I и II рода
- •Параметрические критерии проверки гипотез
- •Непараметрические критерии
- •Корреляционный анализ
- •Применение статистического анализа в биологии
- •Получение и организация данных
- •Вычисление биологически значимых показателей
- •Выбор статистического метода: критерий Манна–Уитни
- •Список литературы
Классификация статистических методов
Описательная статистика − предназначена для систематизации и краткого изложения данных. Она включает вычисление среднего, медианы, стандартного отклонения, построение гистограмм и диаграмм.
Аналитическая (инференциальная) статистика − используется для проверки гипотез, сравнения выборок и определения достоверности различий. Основные методы − t−критерий Стьюдента, χ²−критерий, дисперсионный анализ (ANOVA), корреляция и регрессия. [2, 4]
Математические основы статистических методов
Вероятность и случайные события. Типы распределений случайных величин.
Математические основы статистической обработки данных базируются на теории вероятностей и на свойствах случайных величин. Эти принципы позволяют количественно оценивать изменчивость биологических параметров и делать выводы о достоверности наблюдаемых различий.
Вероятность и распределение случайных величин формируют основу всех биостатистических подходов, включая оценку параметров, проверку гипотез и построение статистических моделей. [2]
Вероятность − это количественная мера возможности наступления определённого события при множестве случайных испытаний. Если событие A может произойти mmm раз из общего числа nnn равновозможных исходов, вероятность этого события определяется как:
В биологических исследованиях вероятность описывает, например, частоту проявления генетического признака, выживаемость организмов или вероятность возникновения мутации.
События могут быть:
независимыми, если вероятность наступления одного не зависит от другого (например, появление мутации у двух разных особей);
взаимоисключающими, если они не могут произойти одновременно (например, рецессивный и доминантный фенотипы при одном локусе).
В биостатистике используются различные распределения вероятностей, каждое из которых отражает определённый тип данных и условий эксперимента. [1]
Нормальное распределение
Это наиболее важное распределение в биологии. Оно описывает множество естественных процессов: рост организмов, физиологические параметры, биохимические показатели. Плотность вероятности нормального распределения задаётся выражением:
где, μ − математическое ожидание (среднее значение), σ − стандартное отклонение.
Биномиальное распределение
Применяется, когда результат эксперимента имеет два исхода − успех или неудачу (например, выжил/погиб, присутствует/отсутствует).
Формула биномиального распределения:
где, n − число испытаний, p − вероятность успеха, x − число успехов.
Распределение Пуассона
Используется для описания редких событий, происходящих в фиксированном интервале времени или пространства, например, частоты мутаций или числа клеточных делений:
где λ − среднее число событий за интервал наблюдения. [1, 2]
Математическое ожидание и дисперсия
Математическое ожидание (ожидаемое значение) случайной величины X определяется как:
для дискретного распределения, или
для непрерывного распределения.
Дисперсия характеризует разброс случайных величин относительно среднего:
Стандартное отклонение − это квадратный корень из дисперсии:
Оценка параметров и доверительные интервалы
Поскольку выборка ограничена, истинные параметры генеральной совокупности (μ,σ) неизвестны и оцениваются с помощью выборочных данных (1) и (4).
Для оценки точности среднего вычисляют
доверительный интервал, который с
заданной вероятностью (
)
содержит истинное значение параметра:
