Добавил:
tg: @Yr66gi4 Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
курсовая работа / Курсовая работа_Ведешкина.docx
Скачиваний:
0
Добавлен:
08.01.2026
Размер:
1.95 Mб
Скачать
    1. Законы больших чисел и центральная предельная теорема

Эти фундаментальные принципы объясняют, почему статистические методы надёжно работают при большом числе наблюдений.

Закон больших чисел утверждает, что по мере увеличения размера выборки выборочное среднее стремится к математическому ожиданию μ.

Центральная предельная теорема гласит, что распределение выборочных средних приближается к нормальному распределению независимо от формы исходных данных.

Именно эта теорема позволяет применять параметрические тесты (например, t−тест) даже для данных, не идеально соответствующих нормальному распределению, при достаточно большом объёме выборки. [1,2]

  1. Методы описательной статистики

    1. Представление данных в таблицах и графиках

Методы описательной статистики служат первым шагом анализа биологических данных. Их цель − упорядочить, визуализировать и количественно описать полученные результаты. Именно на этом этапе исследователь получает первоначальное понимание закономерностей в данных, выявляет выбросы, оценивает симметрию распределения и степень изменчивости наблюдаемых величин.

Таблицы

Табличная форма используется для систематизации числовых данных. Рекомендуется:

  • Располагать значения в логической последовательности (например, по возрастанию, времени, группам).

  • Указывать единицы измерения.

  • Добавлять статистические показатели (среднее, стандартное отклонение, размер выборки).

Таблицы обеспечивают компактное представление числовых данных, но для выявления закономерностей удобнее применять графические методы.

Рис 1.1. Пример изображения таблицы.

    1. Графическое представление данных

Визуализация позволяет быстро оценить распределение, асимметрию, наличие выбросов и возможные зависимости между переменными.

Гистограммы

Гистограмма – это столбчатое изображение распределения количественных данных. На оси X откладываются интервалы значений признака, на оси Y − частоты (число наблюдений в каждом интервале).

Форма гистограммы показывает:

  • симметричность или скошенность распределения;

  • наличие мод (пиков);

  • выбросы или группирование значений.

Для построения гистограммы выбирают оптимальное число интервалов k, которое можно определить по правилу Стерджесса: , где n − количество наблюдений.

Если распределение симметрично и имеет один пик − оно близко к нормальному; если гистограмма вытянута влево или вправо − распределение асимметрично. [1]

Диаграммы Диаграммы применяются для визуализации зависимостей и сравнений.

  • Столбчатая диаграмма (bar chart) − отображает средние значения категориальных данных, например, средний уровень белка у разных видов растений.

Рисунок 1.2. Пример изображения столбчатой вертикальной и горизотальной диаграммы (bar chart).

  • Линейная диаграмма (line chart) − используется для динамических рядов (например, изменение концентрации вещества во времени).

Рисунок 1.3. Пример изображения лнейная диаграммы (line chart).

  • Круговая диаграмма (pie chart) − показывает долевое соотношение категорий, например, процентное содержание типов клеток в ткани.

Рисунок 1.4. Пример изображения круговой диаграммы (pie chart).

  • Диаграмма разброса (scatter plot) − позволяет оценить корреляцию между двумя количественными переменными (например, зависимость массы тела от длины тела).

Рисунок 1.5. Пример изображения диаграммы разброса (scatter plot).

Box−plot (ящик с усами)

Этот вид графика наглядно показывает медиану, квартильные интервалы (Q1, Q3) и выбросы. Длина "ящика" отражает межквартильный размах (IQR = Q3 − Q1), а "усы" указывают диапазон нормальных значений. Box−plot удобен для сравнения нескольких выборок − например, экспрессии гена в контрольной и экспериментальной группах.

Рисунок 1.6. Пример изображения и анатомия ящика с усами (box−plot).

Плотность распределения (density plot)

Плотность распределения – это сглаженная версия гистограммы, отражающая вероятность встретить значение в данном диапазоне. Плотность распределения особенно полезна при сравнении нескольких выборок, когда различия между ними трудно уловить на гистограммах. [6]