- •Кафедра Биофизики реферат «Статистическая обработка данных биологических объектов»
- •Введение
- •Основные понятия статистической обработки данных
- •Генеральная совокупность и выборка. Случайная величина и распределение данных.
- •Случайная величина и распределение данных. Основные параметры распределений
- •Классификация статистических методов
- •Математические основы статистических методов
- •Вероятность и случайные события. Типы распределений случайных величин.
- •Математическое ожидание и дисперсия
- •Оценка параметров и доверительные интервалы
- •Законы больших чисел и центральная предельная теорема
- •Методы описательной статистики
- •Представление данных в таблицах и графиках
- •Графическое представление данных
- •Проверка нормальности распределения
- •Проверка статистических гипотез и корреляционный анализ
- •Основные понятия и логика проверки гипотез
- •Ошибки I и II рода
- •Параметрические критерии проверки гипотез
- •Непараметрические критерии
- •Корреляционный анализ
- •Применение статистического анализа в биологии
- •Получение и организация данных
- •Вычисление биологически значимых показателей
- •Выбор статистического метода: критерий Манна–Уитни
- •Список литературы
Основные понятия статистической обработки данных
Генеральная совокупность и выборка. Случайная величина и распределение данных.
В биологических исследованиях невозможно измерить все элементы изучаемой системы. Поэтому для анализа используют часть совокупности, которая называется выборкой, а вся совокупность возможных объектов − это генеральная совокупность [2] .
Выборка должна быть репрезентативной, то есть отражать структуру генеральной совокупности, чтобы полученные результаты можно было экстраполировать.
Для большинства статистических методов предполагается, что выборка является случайной, когда каждый элемент совокупности имеет равную вероятность попасть в исследование. Нарушение этого условия приводит к систематическим ошибкам и искажению результатов [1].
Каждое наблюдение биологического параметра (например, длина, масса, активность фермента) рассматривается как случайная величина − переменная, принимающая различные значения в зависимости от случайных факторов.
Распределение случайной величины характеризует, с какой частотой встречаются определённые значения.
Основные типы распределений:
Нормальное (гауссово) − симметричное распределение, при котором большинство значений сосредоточено около среднего;
Биномиальное − используется для дискретных событий (например, наличие/отсутствие признака);
Пуассоновское − описывает редкие случайные события, такие как мутации или спонтанные деления клеток.
Функция плотности нормального распределения имеет вид:
В биологии нормальное распределение встречается особенно часто − например, при измерении роста, массы тела, активности ферментов, скорости метаболизма. Отклонения от нормальности указывают на влияние внешних факторов или гетерогенность популяции.
Случайная величина и распределение данных. Основные параметры распределений
Для описания статистических данных применяют числовые характеристики, которые делятся на показатели центральной тенденции и показатели рассеяния.
Среднее значение
где,
− отдельные наблюдения, n − их число.
Среднее значение отражает центр распределения и используется при нормальном (симметричном) распределении данных.
Медиана – это значение, которое делит упорядоченные данные пополам. Медиана более устойчива к выбросам, чем среднее, и предпочтительна при асимметричных распределениях.
Мода – это значение, встречающееся наиболее часто. В биологии мода может отражать наиболее вероятный фенотип или диапазон физиологических параметров.
Асимметрия – это числовая характеристика, являющаяся показателем степени отклонения графика распределения случайной величины от симметричного графика распределения. Значение коэффициента асимметрии находится по формуле:
Эксцесс – это числовая характеристика, которая характеризует "крутизну" подъема кривой распределения по сравнению с нормальной кривой. Эксцесс вычисляется по формуле:
Значение эксцесса у нормального распределения приближается к нулю.
Дисперсия и стандартное отклонение
Характеризуют разброс данных относительно среднего значения:
где, где
− дисперсия, s − стандартное
отклонение.
Чем больше s, тем
сильнее варьируются данные.
В биологических экспериментах часто
используют стандартную ошибку среднего
(SE):
, которая показывает точность оценки
среднего значения. [2, 4]
