Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Количественная биология.doc
Скачиваний:
7
Добавлен:
05.12.2019
Размер:
8.84 Mб
Скачать

Информативность и значимость компонент

Следует отметить, что участие двух компонент в дифференциации объектов неодинаково. Первая компонента имеет наибольшую дисперсию (2.1) и на 70% исчерпала информацию об изменчивости признаков (табл. 9.9), тогда как на долю второй приходится всего 24%. Получается, что роль этой компоненты ниже, чем роль любого из исходных признаков (на каждый из них приходится по 33%), и вторая компонента (как и третья) не должна бы участвовать в дальнейшем рассмотрении. В компонентном анализе обычно используется содержательный критерий значимости: компоненты с дисперсией менее 1 не рассматриваются.

Это справедливо для небольших объемов выборок (десятки объектов), но для обширных выборок может оказаться неверным. Для этого предлагается формальный критерий оценки значимости компонент, проверяющий нулевую гипотезу о равенстве дисперсий k компонент:

S2i = S2i+1 = … = S2k.

Если дисперсии компонент равны, значит, они не используют общей информации о коррелированности исходных признаков, не являются общими факторами, не сказываются на признаках, т. е. незначимы. Критерий имеет χ²-распределение с степенями свободы:

  χ²(α,df),

где n – объем выборки,

k – число рассматриваемых компонент,

i – номер начальной учитываемой компоненты,

S 2 – дисперсия компоненты.

Проверим гипотезу о равенстве трех главных компонент. Для уровня значимости α = 0.05 имеем i = 1, k = 3, df = 7, n = 17, χ²(0.05,7) = 4.07, S 21 = 2.1, S22 = 0.71, S 23 = 0.19,

= 20.18.

Полученное значение (20.18) больше табличного (14.07), следовательно, дисперсии трех компонент отличаются достоверно.

Проверяя гипотезу о равенстве второй и третьей компонент, получим i = 1, k = 2, df = 2, n = 17, χ² = 5.99, S 22 = 0.71, S 23 = 0.19,

= 4.9.

На сей раз полученное значение (4.9) меньше табличного (5.99), дисперсии второй и третьей компонент отличаются недостоверно.

Вывод очевиден: первая (значимая) компонента выделяется среди прочих (незначимых) компонент по информационной насыщенности. Специфика исходных трех переменных воплотилась в единственный расчетный признак, первую главную компоненту.

Этапы компонентного анализа

Метод главных компонент достаточно сложен, но это самая эффективная процедура разведочного анализа любой многомерной совокупности данных, имеющая примерно семь крупных шагов:

  1. организация массива данных с метками объектов и именами переменных,

  2. изучение направлений изменчивости исходных признаков,

  3. выполнение расчетов в среде специальных пакетов (StatGraphics),

  4. изучение факторных нагрузок,

  5. изучение ординации объектов в осях значимых главных компонент,

  6. присвоение названий значимым компонентам,

  7. вывод об основных направлениях (факторах) изменчивости данных.

  8. отсев или отбор признаков и повторение расчетов; итерации позволяют глубже понять структуру связей между признаками.

Поэтапно проанализируем данные по динамике снеготаяния на прибайкальской равнине в зоне действия Байкальского целлюлозно-бумажного комбината, который имеет большие объемы пыле-газовых выбросов.

1) Глубину снега (h, см) измеряли в 9 точках Прибайкальской равнины вдоль побережья оз. Байкал 4 раза за сезон с 21 апреля по 18 мая 1986 г. (табл. 9.11).

2) Данные показывают, что с запада на восток уровень снега в среднем постепенно повышается, достигая в некоторых точках (85 км) глубины h21.4.86 = 110 см. При этом для начала весны (21.4.86) отмечается плавное повышение уровня снега с запада на восток, а к концу (18.5.86) становятся заметны резкие перепады между отдельными точками.

Таблица 9.11

Расстояние запад–восток, км

21.04.86

02.05.86

11.05.86

18.05.86

Средняя

ГК1

ГК2

0

5

0

0

0

1.3

–3.2

0.7

20

55

40

25

20

35.0

–1.3

0.2

32

55

35

10

1

25.3

–1.9

–0.3

39

95

80

70

30

68.8

0.7

–0.3

33 (БЦБК)

75

55

15

0

36.3

–1.2

–0.8

35

105

95

85

70

88.8

1.8

0.4

45

125

110

85

75

98.8

2.4

0.01

75

110

80

60

60

77.5

1.2

0.04

85

110

85

70

65

82.5

1.5

0.2

3) Порядок расчетов в StatGraphics рассмотрены на с. 251.

4) В результате расчетов получены коэффициенты линейных индексов (факторные нагрузки) (табл. 9.12), позволяющие рассчитать значения главных компонент по формулам вида:

,

и т. д.

Таблица 9.12

Дата

a1

a2

a3

a4

21.04.86

0.49

–0.55

–0.38

0.54

02.05.86

0.51

–0.38

0.13

–0.76

11.05.86

0.50

0.26

0.75

0.33

18.05.86

0.49

0.69

–0.52

–0.11

S2

3.741

0.191

0.059

0.008

S2, %

93.5

4.8

1.5

0.2

Первая главная компонента имеет бóльшую дисперсию (3.7 из 4), т. е. забирает на себя бóльшую часть информации (93.5%); остатки почти целиком приходятся на вторую компоненту (4.8%). Очевидно, что при данном количестве наблюдений вторая компонента незначима, тем не менее мы ее рассмотрим подробнее.

В первой компоненте факторные нагрузки ("веса") разных признаков почти равны (по 0.5), это значит, что чем больше будут значения всех промеров, тем больше будет и значение компоненты.

Во второй главной компоненте достаточно большие факторные нагрузки имеют только первая (21.04.86) и последняя (18.05.86) даты (–0.55 и 0.69 соответственно), причем с разными знаками. Вторая компонента как бы противопоставляет зимние и весенние глубины. Максимальные значения этой компоненты будут наблюдаться для точек, в которых зимой был наименьший уровень снега, а весной наибольший, т. е. там, где уровень снега почти не менялся. Минимальные же значения должны наблюдаться для тех точек, где зимой снега было много, а весной – мало, т. е. где снег быстро сошел.

Рис. 9.7. Компонентный анализ динамики снеготаяния

5) Отследим значения главных компонент для отдельных точек. Значения первой компоненты велики для самых восточных точек (1.5), где максимальны все промеры снега, и минимальны для западных (–3.2), где снега почти нет. Значения второй компоненты высоки для многих пунктов промера (где снег сходил более или менее равномерно), а минимальны только для точки 33 км: здесь наблюдается резкий перепад глубин между отдельными промерами.

6) Ход первой компоненты подобен средней арифметической по всем промерам (рис. 9.7), ее можно назвать "запасы снега". Высокие значения второй компоненты выявляют зоны медленного схода снега, а низкие – быстрого, поэтому ее можно назвать "устойчивость снегового покрова весной".

7) Рассматривая явление в новых терминах, можно сказать, что в общем запасы снега на Прибайкальской равнине плавно увеличиваются с запада на восток. Для окрестностей БЦБК характерна средняя мощность, но низкая устойчивость снегового покрова. Как показали специальные исследования, причина этого явления – загрязнение поверхности пылевыми частицами, которые способствуют его нагреванию под лучами солнца и быстрому таянию.