- •Кафедра Биофизики реферат «Статистическая обработка данных биологических объектов»
- •Введение
- •Основные понятия статистической обработки данных
- •Генеральная совокупность и выборка. Случайная величина и распределение данных.
- •Случайная величина и распределение данных. Основные параметры распределений
- •Классификация статистических методов
- •Математические основы статистических методов
- •Вероятность и случайные события. Типы распределений случайных величин.
- •Математическое ожидание и дисперсия
- •Оценка параметров и доверительные интервалы
- •Законы больших чисел и центральная предельная теорема
- •Методы описательной статистики
- •Представление данных в таблицах и графиках
- •Графическое представление данных
- •Проверка нормальности распределения
- •Проверка статистических гипотез и корреляционный анализ
- •Основные понятия и логика проверки гипотез
- •Ошибки I и II рода
- •Параметрические критерии проверки гипотез
- •Непараметрические критерии
- •Корреляционный анализ
- •Применение статистического анализа в биологии
- •Получение и организация данных
- •Вычисление биологически значимых показателей
- •Выбор статистического метода: критерий Манна–Уитни
- •Список литературы
Законы больших чисел и центральная предельная теорема
Эти фундаментальные принципы объясняют, почему статистические методы надёжно работают при большом числе наблюдений.
Закон больших чисел утверждает, что
по мере увеличения размера выборки
выборочное среднее
стремится к математическому ожиданию
μ.
Центральная предельная теорема гласит, что распределение выборочных средних приближается к нормальному распределению независимо от формы исходных данных.
Именно эта теорема позволяет применять параметрические тесты (например, t−тест) даже для данных, не идеально соответствующих нормальному распределению, при достаточно большом объёме выборки. [1,2]
Методы описательной статистики
Представление данных в таблицах и графиках
Методы описательной статистики служат первым шагом анализа биологических данных. Их цель − упорядочить, визуализировать и количественно описать полученные результаты. Именно на этом этапе исследователь получает первоначальное понимание закономерностей в данных, выявляет выбросы, оценивает симметрию распределения и степень изменчивости наблюдаемых величин.
Таблицы
Табличная форма используется для систематизации числовых данных. Рекомендуется:
Располагать значения в логической последовательности (например, по возрастанию, времени, группам).
Указывать единицы измерения.
Добавлять статистические показатели (среднее, стандартное отклонение, размер выборки).
Таблицы обеспечивают компактное представление числовых данных, но для выявления закономерностей удобнее применять графические методы.
Рис 1.1. Пример изображения таблицы.
Графическое представление данных
Визуализация позволяет быстро оценить распределение, асимметрию, наличие выбросов и возможные зависимости между переменными.
Гистограммы
Гистограмма – это столбчатое изображение распределения количественных данных. На оси X откладываются интервалы значений признака, на оси Y − частоты (число наблюдений в каждом интервале).
Форма гистограммы показывает:
симметричность или скошенность распределения;
наличие мод (пиков);
выбросы или группирование значений.
Для построения гистограммы выбирают
оптимальное число интервалов k, которое
можно определить по правилу Стерджесса:
,
где n − количество наблюдений.
Если распределение симметрично и имеет один пик − оно близко к нормальному; если гистограмма вытянута влево или вправо − распределение асимметрично. [1]
Диаграммы Диаграммы применяются для визуализации зависимостей и сравнений.
Столбчатая диаграмма (bar chart) − отображает средние значения категориальных данных, например, средний уровень белка у разных видов растений.
Рисунок 1.2. Пример изображения столбчатой вертикальной и горизотальной диаграммы (bar chart).
Линейная диаграмма (line chart) − используется для динамических рядов (например, изменение концентрации вещества во времени).
Рисунок 1.3. Пример изображения лнейная диаграммы (line chart).
Круговая диаграмма (pie chart) − показывает долевое соотношение категорий, например, процентное содержание типов клеток в ткани.
Рисунок 1.4. Пример изображения круговой диаграммы (pie chart).
Диаграмма разброса (scatter plot) − позволяет оценить корреляцию между двумя количественными переменными (например, зависимость массы тела от длины тела).
Рисунок 1.5. Пример изображения диаграммы разброса (scatter plot).
Box−plot (ящик с усами)
Этот вид графика наглядно показывает медиану, квартильные интервалы (Q1, Q3) и выбросы. Длина "ящика" отражает межквартильный размах (IQR = Q3 − Q1), а "усы" указывают диапазон нормальных значений. Box−plot удобен для сравнения нескольких выборок − например, экспрессии гена в контрольной и экспериментальной группах.
Рисунок 1.6. Пример изображения и анатомия ящика с усами (box−plot).
Плотность распределения (density plot)
Плотность распределения – это сглаженная версия гистограммы, отражающая вероятность встретить значение в данном диапазоне. Плотность распределения особенно полезна при сравнении нескольких выборок, когда различия между ними трудно уловить на гистограммах. [6]
