
- •Введение
- •Принципы количественной биологии Основные задачи количественной биологии
- •Этапы биометрического исследования
- •Выборка и ее статистическое описание
- •Процесс формирования выборки
- •Признак
- •Построение вариационного ряда
- •Средняя (характеристика величины признака)
- •Стандартное отклонение (и другие показатели изменчивости)
- •Статистическое оценивание Свойства нормального распределения
- •Генеральная совокупность и выборка
- •Ошибка репрезентативности выборочных параметров
- •Доверительный интервал
- •Определение точности опыта
- •Оптимальный объем выборки
- •Асимметрия и эксцесс
- •Основные типы распределения биологических признаков
- •Нормальное распределение
- •Биномиальное распределение
- •Распределение Пуассона
- •Альтернативное распределение
- •Полиномиальное распределение
- •Равномерное распределение
- •Проверка статистических гипотез
- •Задача "доказать чужеродность варианты"
- •Задача "доказать отличие двух выборок"
- •Сравнение двух выборок по величине признака
- •Сравнение средних арифметических по критерию t Стьюдента
- •Сравнение двух выборок по изменчивости признака
- •Сравнение стандартных отклонений по критерию t Стьюдента
- •Сравнение дисперсий по критерию f Фишера
- •Сравнение коэффициентов вариации по критерию t Стьюдента
- •Сравнение двух выборок в целом (непараметрические критерии)
- •Критерий u Уилкоксона – Манна – Уитни
- •Критерий т Уайта
- •Критерий q Розенбаума
- •Сравнение двух выборок по силе корреляции двух признаков
- •Сравнение двух линий регрессии
- •Сравнение двух выборок по характеру распределения
- •Критерий χ² Пирсона
- •Критерий Колмогорова – Смирнова
- •Отношения между статистиками t, t, f и χ²
- •Задача "доказать отличие нескольких выборок" ("доказать влияние фактора")
- •Сравнение нескольких выборок по величине одного признака (однофакторный дисперсионный анализ)
- •Логико-теоретические основы
- •Техника расчетов
- •Дисперсионный анализ для количественных признаков
- •Парные сравнения выборочных средних методом Шеффе
- •Сравнение нескольких выборок по изменчивости признака
- •Сравнение нескольких выборок по величине двух признаков (двухфакторный дисперсионный анализ)
- •Логико-теоретические основы
- •Техника расчетов
- •Задача "найти зависимость между двумя признаками"
- •Регрессионный анализ зависимости двух признаков
- •Логико-теоретические основы
- •Техника расчета линейной регрессии
- •Криволинейная регрессия
- •Корреляционный анализ
- •Логико-теоретические основы
- •Биологическая интерпретация коэффициента корреляции
- •Техника расчета линейного коэффициента корреляции
- •Ложная корреляция
- •Метод множественной корреляции
- •Метод частной корреляции
- •Корреляционное отношение и критерий линейности
- •Ранговый коэффициент корреляции Спирмена
- •Корреляция между качественными признаками
- •Задача "классифицировать объекты" Методы многомерного анализа
- •Основы кластерного анализа
- •Основы дискриминантного анализа
- •Основы метода главных компонент
- •Главные компоненты как факторы
- •Требование максимума дисперсии
- •Факторные нагрузки
- •Расчет корреляционных компонент
- •Требование ортогональности компонент
- •Компонентный анализ
- •Информативность и значимость компонент
- •Этапы компонентного анализа
- •Варианты представления результатов
- •Компонентный анализ в среде StatGraphics
- •Имитационное моделирование в среде Excel
- •Задача аппроксимации данных (статические модели)
- •Задача изучения процессов (динамические модели)
- •Приемы работы в Excel
- •Литература
- •Справочные таблицы
- •Квадраты и квадратные корни для чисел 1…99
- •Значения случайных чисел равномерно распределенных на интервале (0, 1)
- •Ординаты нормальной кривой (значения функции )
- •Значение критерия t для отбраковки "выскакивающих" вариант
- •Пороговые значения распределения т Стьюдента; α для двустороннего критерия
- •Значения критерия Стьюдента
- •Значения критерия χ²
- •Значения критерия u Уилкоксона – Манна – Уитни
- •Значения критерия q Розенбаума
- •Значения величины
- •Содержание
- •Ивантер Эрнест Викторович Коросов Андрей Викторович Введение в количественную биологию
Информативность и значимость компонент
Следует отметить, что участие двух компонент в дифференциации объектов неодинаково. Первая компонента имеет наибольшую дисперсию (2.1) и на 70% исчерпала информацию об изменчивости признаков (табл. 9.9), тогда как на долю второй приходится всего 24%. Получается, что роль этой компоненты ниже, чем роль любого из исходных признаков (на каждый из них приходится по 33%), и вторая компонента (как и третья) не должна бы участвовать в дальнейшем рассмотрении. В компонентном анализе обычно используется содержательный критерий значимости: компоненты с дисперсией менее 1 не рассматриваются.
Это справедливо для небольших объемов выборок (десятки объектов), но для обширных выборок может оказаться неверным. Для этого предлагается формальный критерий оценки значимости компонент, проверяющий нулевую гипотезу о равенстве дисперсий k компонент:
S2i = S2i+1 = … = S2k.
Если дисперсии
компонент равны, значит, они не используют
общей информации о коррелированности
исходных признаков, не являются общими
факторами, не сказываются на признаках,
т. е. незначимы. Критерий имеет
χ²-распределение
с
степенями свободы:
χ²(α,df),
где n – объем выборки,
k – число рассматриваемых компонент,
i – номер начальной учитываемой компоненты,
S 2 – дисперсия компоненты.
Проверим гипотезу о равенстве трех главных компонент. Для уровня значимости α = 0.05 имеем i = 1, k = 3, df = 7, n = 17, χ²(0.05,7) = 4.07, S 21 = 2.1, S22 = 0.71, S 23 = 0.19,
= 20.18.
Полученное значение (20.18) больше табличного (14.07), следовательно, дисперсии трех компонент отличаются достоверно.
Проверяя гипотезу о равенстве второй и третьей компонент, получим i = 1, k = 2, df = 2, n = 17, χ² = 5.99, S 22 = 0.71, S 23 = 0.19,
= 4.9.
На сей раз полученное значение (4.9) меньше табличного (5.99), дисперсии второй и третьей компонент отличаются недостоверно.
Вывод очевиден: первая (значимая) компонента выделяется среди прочих (незначимых) компонент по информационной насыщенности. Специфика исходных трех переменных воплотилась в единственный расчетный признак, первую главную компоненту.
Этапы компонентного анализа
Метод главных компонент достаточно сложен, но это самая эффективная процедура разведочного анализа любой многомерной совокупности данных, имеющая примерно семь крупных шагов:
организация массива данных с метками объектов и именами переменных,
изучение направлений изменчивости исходных признаков,
выполнение расчетов в среде специальных пакетов (StatGraphics),
изучение факторных нагрузок,
изучение ординации объектов в осях значимых главных компонент,
присвоение названий значимым компонентам,
вывод об основных направлениях (факторах) изменчивости данных.
отсев или отбор признаков и повторение расчетов; итерации позволяют глубже понять структуру связей между признаками.
Поэтапно проанализируем данные по динамике снеготаяния на прибайкальской равнине в зоне действия Байкальского целлюлозно-бумажного комбината, который имеет большие объемы пыле-газовых выбросов.
1) Глубину снега (h, см) измеряли в 9 точках Прибайкальской равнины вдоль побережья оз. Байкал 4 раза за сезон с 21 апреля по 18 мая 1986 г. (табл. 9.11).
2) Данные показывают, что с запада на восток уровень снега в среднем постепенно повышается, достигая в некоторых точках (85 км) глубины h21.4.86 = 110 см. При этом для начала весны (21.4.86) отмечается плавное повышение уровня снега с запада на восток, а к концу (18.5.86) становятся заметны резкие перепады между отдельными точками.
Таблица 9.11
Расстояние запад–восток, км |
21.04.86 |
02.05.86 |
11.05.86 |
18.05.86 |
Средняя |
ГК1 |
ГК2 |
0 |
5 |
0 |
0 |
0 |
1.3 |
–3.2 |
0.7 |
20 |
55 |
40 |
25 |
20 |
35.0 |
–1.3 |
0.2 |
32 |
55 |
35 |
10 |
1 |
25.3 |
–1.9 |
–0.3 |
39 |
95 |
80 |
70 |
30 |
68.8 |
0.7 |
–0.3 |
33 (БЦБК) |
75 |
55 |
15 |
0 |
36.3 |
–1.2 |
–0.8 |
35 |
105 |
95 |
85 |
70 |
88.8 |
1.8 |
0.4 |
45 |
125 |
110 |
85 |
75 |
98.8 |
2.4 |
0.01 |
75 |
110 |
80 |
60 |
60 |
77.5 |
1.2 |
0.04 |
85 |
110 |
85 |
70 |
65 |
82.5 |
1.5 |
0.2 |
3) Порядок расчетов в StatGraphics рассмотрены на с. 251.
4) В результате расчетов получены коэффициенты линейных индексов (факторные нагрузки) (табл. 9.12), позволяющие рассчитать значения главных компонент по формулам вида:
,
и т. д.
Таблица 9.12
Дата |
a1 |
a2 |
a3 |
a4 |
21.04.86 |
0.49 |
–0.55 |
–0.38 |
0.54 |
02.05.86 |
0.51 |
–0.38 |
0.13 |
–0.76 |
11.05.86 |
0.50 |
0.26 |
0.75 |
0.33 |
18.05.86 |
0.49 |
0.69 |
–0.52 |
–0.11 |
S2 |
3.741 |
0.191 |
0.059 |
0.008 |
S2, % |
93.5 |
4.8 |
1.5 |
0.2 |
Первая главная компонента имеет бóльшую дисперсию (3.7 из 4), т. е. забирает на себя бóльшую часть информации (93.5%); остатки почти целиком приходятся на вторую компоненту (4.8%). Очевидно, что при данном количестве наблюдений вторая компонента незначима, тем не менее мы ее рассмотрим подробнее.
В первой компоненте факторные нагрузки ("веса") разных признаков почти равны (по 0.5), это значит, что чем больше будут значения всех промеров, тем больше будет и значение компоненты.
Во второй главной
компоненте достаточно большие факторные
нагрузки имеют только первая (21.04.86) и
последняя (18.05.86) даты (–0.55 и 0.69
соответственно), причем с разными
знаками. Вторая компонента как бы
противопоставляет зимние и весенние
глубины. Максимальные значения этой
компоненты будут наблюдаться для точек,
в которых зимой был наименьший уровень
снега, а весной наибольший, т. е. там,
где уровень снега почти не менялся.
Минимальные же значения должны наблюдаться
для тех точек, где зимой снега было
много, а весной – мало, т. е. где снег
быстро сошел.
Рис. 9.7. Компонентный анализ динамики снеготаяния
5) Отследим значения главных компонент для отдельных точек. Значения первой компоненты велики для самых восточных точек (1.5), где максимальны все промеры снега, и минимальны для западных (–3.2), где снега почти нет. Значения второй компоненты высоки для многих пунктов промера (где снег сходил более или менее равномерно), а минимальны только для точки 33 км: здесь наблюдается резкий перепад глубин между отдельными промерами.
6) Ход первой компоненты подобен средней арифметической по всем промерам (рис. 9.7), ее можно назвать "запасы снега". Высокие значения второй компоненты выявляют зоны медленного схода снега, а низкие – быстрого, поэтому ее можно назвать "устойчивость снегового покрова весной".
7) Рассматривая явление в новых терминах, можно сказать, что в общем запасы снега на Прибайкальской равнине плавно увеличиваются с запада на восток. Для окрестностей БЦБК характерна средняя мощность, но низкая устойчивость снегового покрова. Как показали специальные исследования, причина этого явления – загрязнение поверхности пылевыми частицами, которые способствуют его нагреванию под лучами солнца и быстрому таянию.