- •Кафедра Биофизики реферат «Статистическая обработка данных биологических объектов»
- •Введение
- •Основные понятия статистической обработки данных
- •Генеральная совокупность и выборка. Случайная величина и распределение данных.
- •Случайная величина и распределение данных. Основные параметры распределений
- •Классификация статистических методов
- •Математические основы статистических методов
- •Вероятность и случайные события. Типы распределений случайных величин.
- •Математическое ожидание и дисперсия
- •Оценка параметров и доверительные интервалы
- •Законы больших чисел и центральная предельная теорема
- •Методы описательной статистики
- •Представление данных в таблицах и графиках
- •Графическое представление данных
- •Проверка нормальности распределения
- •Проверка статистических гипотез и корреляционный анализ
- •Основные понятия и логика проверки гипотез
- •Ошибки I и II рода
- •Параметрические критерии проверки гипотез
- •Непараметрические критерии
- •Корреляционный анализ
- •Применение статистического анализа в биологии
- •Получение и организация данных
- •Вычисление биологически значимых показателей
- •Выбор статистического метода: критерий Манна–Уитни
- •Список литературы
Непараметрические критерии
Критерий Манна–Уитни (U test)
Для определения наличия различий в выборках, не подчиняющихся нормальному распределению, нужно использовать непараметрические методы: для независимых показателей – критерий Манна-Уитни (аналог t-теста для независимых выборок):
где,
- наибольшая из 2-х ранговых
сумм,
,
где
– значения положительных и отрицательных
разностей, меньшее из которых
рассматривается, как атипичное и
используется для вычислений.
[1, 5]
Корреляционный анализ
Корреляционный анализ используется для количественной оценки силы и направления связи между двумя переменными. Если значения одной переменной систематически увеличиваются (или уменьшаются) с ростом другой, то между ними существует положительная (или отрицательная) корреляция.
Коэффициент корреляции Пирсона (r)0
Применяется для линейных зависимостей и нормально распределённых данных.
где
–
пары наблюдений.
Коэффициент связи (r): слабый (0.0 – 0.3), средний (0.3 – 0.7), сильный (0.7 – 1.0).
Если p <0.05, корреляция статистически значима. [3]
Коэффициент ранговой корреляции Спирмена (ρ)
Используется при несимметричных данных
или при порядковой шкале измерений.
где
разность рангов парных наблюдений. [1]
Применение статистического анализа в биологии
Получение и организация данных
Первым этапом анализа является формирование корректного набора данных. В биологии это включает подсчёт клеток, структур, событий или других измеряемых объектов. В работе был произведён подсчёт:
общего числа клеток (BLUE),
клеток, экспрессирующих маркеры нейровоспаления (RED) .
Полученные данные фиксировались в таблицах (Рис. 2.) и использовались для последующего количественного анализа.
Рисунок 2. Пример таблицы для обсчета клеток и маркеров нейровоспаления с процентным соотношением маркеров к общему числу клеток»
Вычисление биологически значимых показателей
Процент экспрессирующих клеток
Для оценки уровня нейровоспаления рассчитывалась доля клеток, экспрессирующих маркеры воспаления, по формуле:
Этот показатель отражает, какая часть всех клеток в выбранной области мозга вовлечена в воспалительный процесс. Использование относительных величин позволяет корректно сравнивать группы, у которых общее количество клеток может различаться.
Среднее значение как биомаркер состояния
После вычисления индивидуальных процентов для каждого биологического образца определялось среднее значение (1), отражающее уровень нейровоспаления в группе. Это стандартный способ представления биологических данных, позволяющий сравнивать состояния «контроль – эксперимент».
Методы описательной статистики
Перед выбором статистического критерия необходимо оценить структуру данных. В работе использовались: медиана, вычисление квартилей для построения box-plot (Рис. 1.6.), дисперсия и стандартное отклонение (4).
Выбор статистического метода: критерий Манна–Уитни
На основе проведенной описательной статистики было выявлено ненормальное распределение между группами (довольно большая дисперсия, очевидная асимметрия такая как, смещенная медиана и разная блина усов).
Для сравнения групп использовался непараметрический критерий Манна–Уитни (U-test) (21) – оптимальный для биологических данных, не соответствующих нормальному распределению и имеющих небольшие объёмы выборок.
Статистическая значимость автоматически определялась по значению p-value. При p < 0.05 различия между группами считаются статистически значимыми, и нулевая гипотеза (H₀) об отсутствии различий в проценте клеток, окрашенных на маркер воспаления, отвергается.
На основе проведенного статистического анализа был подготовлен итоговый график в различии экспрессий маркеров нейровоспаления с указанием p-value (Рис.3.).
Рисунок 3. Процентное сравнение экспрессии CD38 в энторинальной коре, гиппокампе и миндалине
Вывод
Статистическая обработка биологических данных является важной частью любого научного исследования, поскольку именно она позволяет объективно оценивать результаты экспериментов и делать корректные выводы. В работе были рассмотрены основные понятия статистики, включая выборку, случайную величину и различные типы распределений, которые лежат в основе анализа биологических показателей.
Были изучены ключевые математические характеристики – математическое ожидание, дисперсия, стандартное отклонение и доверительные интервалы, которые помогают оценивать вариабельность данных и надёжность результатов измерений. Отдельное внимание уделено методам описательной статистики и визуализации: таблицам, гистограммам, диаграммам и box-plot. Эти инструменты позволяют увидеть структуру данных, их распределение и возможные выбросы ещё до применения аналитических критериев.
В работе также были рассмотрены методы проверки статистических гипотез – параметрические и непараметрические тесты, условия их применения и их значение для анализа биологических выборок. Эти методы помогают определять, являются ли различия между группами статистически значимыми и отражают ли они реальные биологические особенности, а не случайные колебания данных.
В целом проведённый обзор показывает, что статистические методы обеспечивают основу для анализа и интерпретации биологических данных. Они делают исследование более надёжным, позволяют выявлять закономерности и обеспечивают научную обоснованность выводов. Знание и грамотное применение биостатистики является неотъемлемой частью подготовки специалиста, работающего в области биологии и медицины.
