
- •Введение
- •Принципы количественной биологии Основные задачи количественной биологии
- •Этапы биометрического исследования
- •Выборка и ее статистическое описание
- •Процесс формирования выборки
- •Признак
- •Построение вариационного ряда
- •Средняя (характеристика величины признака)
- •Стандартное отклонение (и другие показатели изменчивости)
- •Статистическое оценивание Свойства нормального распределения
- •Генеральная совокупность и выборка
- •Ошибка репрезентативности выборочных параметров
- •Доверительный интервал
- •Определение точности опыта
- •Оптимальный объем выборки
- •Асимметрия и эксцесс
- •Основные типы распределения биологических признаков
- •Нормальное распределение
- •Биномиальное распределение
- •Распределение Пуассона
- •Альтернативное распределение
- •Полиномиальное распределение
- •Равномерное распределение
- •Проверка статистических гипотез
- •Задача "доказать чужеродность варианты"
- •Задача "доказать отличие двух выборок"
- •Сравнение двух выборок по величине признака
- •Сравнение средних арифметических по критерию t Стьюдента
- •Сравнение двух выборок по изменчивости признака
- •Сравнение стандартных отклонений по критерию t Стьюдента
- •Сравнение дисперсий по критерию f Фишера
- •Сравнение коэффициентов вариации по критерию t Стьюдента
- •Сравнение двух выборок в целом (непараметрические критерии)
- •Критерий u Уилкоксона – Манна – Уитни
- •Критерий т Уайта
- •Критерий q Розенбаума
- •Сравнение двух выборок по силе корреляции двух признаков
- •Сравнение двух линий регрессии
- •Сравнение двух выборок по характеру распределения
- •Критерий χ² Пирсона
- •Критерий Колмогорова – Смирнова
- •Отношения между статистиками t, t, f и χ²
- •Задача "доказать отличие нескольких выборок" ("доказать влияние фактора")
- •Сравнение нескольких выборок по величине одного признака (однофакторный дисперсионный анализ)
- •Логико-теоретические основы
- •Техника расчетов
- •Дисперсионный анализ для количественных признаков
- •Парные сравнения выборочных средних методом Шеффе
- •Сравнение нескольких выборок по изменчивости признака
- •Сравнение нескольких выборок по величине двух признаков (двухфакторный дисперсионный анализ)
- •Логико-теоретические основы
- •Техника расчетов
- •Задача "найти зависимость между двумя признаками"
- •Регрессионный анализ зависимости двух признаков
- •Логико-теоретические основы
- •Техника расчета линейной регрессии
- •Криволинейная регрессия
- •Корреляционный анализ
- •Логико-теоретические основы
- •Биологическая интерпретация коэффициента корреляции
- •Техника расчета линейного коэффициента корреляции
- •Ложная корреляция
- •Метод множественной корреляции
- •Метод частной корреляции
- •Корреляционное отношение и критерий линейности
- •Ранговый коэффициент корреляции Спирмена
- •Корреляция между качественными признаками
- •Задача "классифицировать объекты" Методы многомерного анализа
- •Основы кластерного анализа
- •Основы дискриминантного анализа
- •Основы метода главных компонент
- •Главные компоненты как факторы
- •Требование максимума дисперсии
- •Факторные нагрузки
- •Расчет корреляционных компонент
- •Требование ортогональности компонент
- •Компонентный анализ
- •Информативность и значимость компонент
- •Этапы компонентного анализа
- •Варианты представления результатов
- •Компонентный анализ в среде StatGraphics
- •Имитационное моделирование в среде Excel
- •Задача аппроксимации данных (статические модели)
- •Задача изучения процессов (динамические модели)
- •Приемы работы в Excel
- •Литература
- •Справочные таблицы
- •Квадраты и квадратные корни для чисел 1…99
- •Значения случайных чисел равномерно распределенных на интервале (0, 1)
- •Ординаты нормальной кривой (значения функции )
- •Значение критерия t для отбраковки "выскакивающих" вариант
- •Пороговые значения распределения т Стьюдента; α для двустороннего критерия
- •Значения критерия Стьюдента
- •Значения критерия χ²
- •Значения критерия u Уилкоксона – Манна – Уитни
- •Значения критерия q Розенбаума
- •Значения величины
- •Содержание
- •Ивантер Эрнест Викторович Коросов Андрей Викторович Введение в количественную биологию
Сравнение двух линий регрессии
Изложенный здесь материал следует читать после ознакомления с разделом 8. Регрессионный анализ, рассматривая зависимость между признаками, выражает ее специфическим образом – через уравнения регрессии. Линейные уравнения вида Y = ax+b содержат два коэффициента регрессии, характеризующие степень сопряжения и пропорциональность изменения признаков (коэффициент a отражает силу связи, т. е. наклон линии) и место пересечения оси ординат (коэффициент b определяет место положения линии в осях координат). Когда ставится вопрос о сходстве характера связи между признаками, то в отношении линии регрессии он распадается на три отдельных вопроса:
одинаков ли характер распределения признаков?
одинаков ли наклон линий регрессии?
одинаково ли положение линий регрессии относительно осей координат?
1)
Для того чтобы решить вопрос о сходстве
угла наклона линий регрессии, необходимо
убедиться в том, что обе линии
характеризуются одной и той же случайной
дисперсией, сходным характером рассеяния
вариант вокруг линий, т. е. сходными
значениями случайной дисперсии, Но:
.
Эта первая гипотеза проверяется с
помощью F
критерия Фишера:
~
F(α,
df1,
df2),
,
где
–
остаточная дисперсия, сумма квадратов
отклонения исходных значений (yx)
от рассчитанных по уравнению регрессии
(Yx),
нормированная на число степеней свободы
(n–2).
Это значение получают из таблицы
дисперсионного анализа регрессионной
модели ("Остаток").
2) Если остаточные дисперсии для разных линий значимо не отличаются, можно приступать к сравнению коэффициентов регрессии, определяющих характер зависимости между признаками, т. е. ответственных за угол наклона прямых. Этой цели служит T критерий Стьюдента:
~
T(α,
df),
где a1, a2 – коэффициенты регрессии сравниваемых уравнений,
ma1,2 – обобщенная ошибка коэффициентов регрессии.
Для выборок одинакового объема обобщенная ошибка рассчитывается по формуле:
,
где ma1, ma2 – ошибки коэффициентов регрессии:
,
Sy, Sx – стандартные отклонения, рассчитанные по всему объему выборки n,
r – коэффициент корреляции между признаками x и y.
Для выборок, имеющих разный объем, обобщенная ошибка репрезентативности коэффициентов регрессии вычисляется более сложным путем:
,
где
–
обобщенная остаточная дисперсия,
вычисленная по формуле:
,
Сx1, Cx2 – суммы квадратов отклонений значений признака x от своих средних (MX) в двух выборках:
,
– остаточные
дисперсии (см. выше).
Различие между коэффициентами регрессии a1 и a2 считается значимым, если расчетное значение критерия Стьюдента превосходит табличное значение при заданном уровне значимости и числе степеней свободы df = n1+n2–4.
3) Если критерий Стьюдента не показал отличий коэффициентов регрессии, то проверяется, наконец, третья гипотеза – об одинаковом положении линий регрессии (т. е. гипотеза о полном совпадении линий) – с помощью T критерия Стьюдента:
~ T(α,
df),
где a – усредненный коэффициент корреляции
,
Mx1, Mx2 – средние для признака x в двух выборках,
Различие между коэффициентами регрессии b1 и b2 считается значимым, если расчетное значение критерия Стьюдента превосходит табличное значение при заданном уровне значимости и числе степеней свободы df = n1+n2–3.
В качестве примера сравним характер зависимости между длиной хвоста (Lc, мм) и длиной тела (Lt, см) у самцов (m) и самок (f) обыкновенной гадюки (табл. 6.3), уравнения регрессии приведены на иллюстрации (рис. 6.2).
1) Найти остаточные дисперсии для каждой выборки проще всего, выполнив полный регрессионный анализ в среде Excel с помощью макроса, вызываемого командой меню Сервис\ Анализ данных\ Регрессия.
Получим
=
12.202,
=
4.006,
отсюда
=
3.046.
Поскольку полученное значение (3.04) меньше табличного F(α,df1,df2) = 3.4, отличия между дисперсиями незначимы. Можно продолжать сравнение линий регрессии.
2) Для проверки различий коэффициентов регрессии требуется найти обобщенную ошибку ma1,2, используя значения ошибок из таблиц проведенного ранее регрессионного анализа в среде Excel. Поскольку объемы выборок отличаются не сильно, можно использовать первую формулу:
=
0.52298.
Таблица 6.3
|
A |
B |
C |
1 |
|
Lt |
Lc |
2 |
m1 |
45 |
77 |
3 |
m2 |
46 |
84 |
4 |
m3 |
47 |
81 |
5 |
m4 |
45 |
76 |
6 |
m5 |
47 |
80 |
7 |
m6 |
50 |
78 |
8 |
m7 |
53 |
90 |
9 |
m8 |
51 |
87 |
10 |
|
Lt |
Lc |
11 |
f9 |
50 |
62 |
12 |
f10 |
55 |
65 |
13 |
f11 |
49 |
65 |
14 |
f12 |
51 |
66 |
15 |
f13 |
52 |
64 |
16 |
f14 |
50.5 |
64 |
17 |
f15 |
53 |
68 |
18 |
f16 |
51 |
62 |
19 |
f17 |
57 |
70 |
Рис. 6.1. Регрессия длины хвоста по длине тела у гадюк
Для целей иллюстрации рассчитаем и более точную оценку. Для этого предварительно нужно найти суммы квадратов отклонений значений независимой переменной x (в нашем случае ее роль играет длина тел Lt) от своих средних. Найдем величины с помощью функции Excel =КВАДРОТКЛ(диапазон). Для таблицы 6.3 имеем:
Cx1 =КВАДРОТКЛ(C2:C9) = 62,
Cx2 =КВАДРОТКЛ(C11:C19) = 52.222.
Поскольку
общая остаточная дисперсию
равна
2.7908,
обобщенная ошибка коэффициентов регрессии составит:
=
0.52419
т. е. практически не отличается от рассчитанной первым способом. Теперь можно оценить значимость отличий коэффициентов (для df = n1+n2–4 = 8+9–4 = 13):
= 10.76.
Полученное значение критерия Стьюдента больше табличного даже для уровня значимости α = 0.001(T(0.001,13) = 4.22), т. е. коэффициенты регрессии не равны.
Итак, результаты сравнения показывают, что линии регрессии имеют разный угол наклона; с увеличением размеров тела длина хвоста у самцов (a = 1.2) прирастает быстрее, чем у самок (a = 0.7).