Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Биостат - помощь / Учебники / Ивантер Коросов Введение в количественную биологию

.pdf
Скачиваний:
339
Добавлен:
16.04.2015
Размер:
5.12 Mб
Скачать

250

Задача «Классифицировать объекты»

на в нижней строке таблицы. В такой форме результаты компонентного анализа представлены в пакете Statistica.

В заключение следует отметить, что каким бы способом представления факторных нагрузок мы ни пользовались, как бы не трансформировались значения главных компонент, все равно ординация (взаиморасположение) объектов в осях главных компонент не меняется! Это позволяет правильно интерпретировать компонентный анализ изменчивости признаков независимо от метода отображения его результатов.

Резюме

Компонентный анализ позволяет рассчитывать линейные индексы исходных признаков (главные компоненты), используя в качестве коэффициентов пропорциональности факторные нагрузки. Процедура расчетов линейных индексов, главных компонент, строится на выполнении следующих условий:

факторные нагрузки отражают корреляцию исходных признаков,

компоненты ортогональны, т. е. не коррелируют друг с другом,

дисперсия следующей компоненты меньше, чем предыдущей. Выполнение этих требований достигается в процессе много-

кратно повторяющейся (итеративной) процедуры «подгонки» результатов вычислений под выдвинутые требования.

Компонентный анализ дает два основных итога. Во-первых, с его помощью удается выяснить тонкую структуру зависимостей переменных друг от друга и от общих причин, т. е. установить состав корреляционных плеяд признаков. Во-вторых, этот метод позволяет количественно оценить обобщенные отличия между всеми объектами, отделить несходные и объединить сходные, т. е. выявить кластерную структуру объектов. Обозначив плеяды признаков и кластеры объектов, компонентный анализ заставляет исследователя задуматься над причинами наблюдаемой структурированности, выйти за рамки известного, направляет дальнейший научный поиск.

Задача «Классифицировать объекты»

251

Компонентный анализ в среде StatGraphics

Для проведения расчетов в среде StatGraphics нужно занести данные на электронный лист, например, скопировать через буфер обмена с листа Excel. Лучший вариант – сохранение данных в формате листа Excel ранних версий. Рассмотрим ключевые этапы работы для примера с морфологической изменчивостью гадюк.

Открыть в среде StatGraphics файл следует командой меню или кнопкой Open Data File.

252

Задача «Классифицировать объекты»

Чтобы имена переменных, назначенных в Excel, автоматически становились именами столбцов, они должны даваться латиницей; в окошке запроса отметить, что имена переменных в первом ряду есть.

Результаты экспорта данных можно посмотреть в окне данных, специально распахнув окно иконки, лежащей на сером поле слева в нижнем углу.

Задача «Классифицировать объекты»

253

Запустить программу компонентного анализа можно только командой меню Special\ Multivariate Methods\ Principal Components.

Выбрав мышкой имена нужных переменных, кнопкой Data: их нужно скопировать в правое окно, ОК. Для дальнейшей идентификации объектов их метки следует поместить в окно Point Labels:.

254Задача «Классифицировать объекты»

Впоявившемся окне Principal Component Analysis четыре кнопки играют важную роль. Первая слева кнопка Input Dialog позволяет вернуться на предыдущий шаг и переопределить список анализируемых переменных. Кнопка Tabular Options обеспечивает доступ ко всем результатам анализа (All, OK). Окно Analysis Summary выводит значения дисперсий главных компонент, окно Table of Component Weights дает значения факторных нагрузок, в окно Table of Principal Components выведены значения главных компонент.

Кнопка Graphical Options раскрывает окна с графическими иллюстрациями (All, OK).

Задача «Классифицировать объекты»

255

 

 

 

 

 

 

Все окно результатов компонентного анализа предстает в виде десяти небольших окошек; распахнуть любое из них позволяет двойной клик левой кнопкой мыши.

256

Задача «Классифицировать объекты»

Полнота результатов вычислений во многом определяется установками в окне Principal Components Options, которое вызывается командой контекстного меню Analysis options… (правый клик на любом окне анализа). Минимально необходимый объем информации появляется, если в блоке Extract by … Number of Components

задать число 2 (т. е. выводить результаты для двух компонент); кроме того, можно задать иное минимальное значение дисперсии главной компоненты (Eigenvalue), чем принятое по умолчанию значение 1. В результате на графиках и в таблицах будут отображаться данные по компонентам, дисперсия которых превышает заданный уровень.

Диаграмма факторных нагрузок (Plot of Component Weights) копирует таблицу Table of Component Weights и призвана наглядно представить степень коррелированности соответствующих признаков.

График Scree Plot отражает изменение дисперсий компонент и (пунктиром) минимальный уровень значимых компонент.

Задача «Классифицировать объекты»

257

Наиболее интересна диаграмма Scatterplot, где представлена ординация объектов в осях компонент,

а также Biplot, где к диаграмме Scatterplot добавлена диаграмма Plot of Component Weights в форме лучей.

Каждый из этих лучей построен по двум опорным точкам: в месте пересечения осей компонент (0,0) и в точке с координатами факторных нагрузок двух первых компонент (a1j,a2j) (здесь j – номер соответствующего признака). Это возможно потому, что и компоненты, и факторные нагрузки есть безразмерные признаки. Биплот наглядно показывает направления изменчивости данных, за которые ответственны определенные признаки. По промерам гадюк видно, что первое направление изменчивости (выявленное первой главной компонентой) определяет отличие особей по массе (W) и длине тела (Lt), а второе (вторая компонента) связано в основном с отличиями по длине хвоста (Lc).

258

Задача «Классифицировать объекты»

Результаты расчетов можно поместить на электронный лист (с помощью кнопки Save results, поставив галочки в нужных окошках), через буфер обмена скопировать на лист Excel и воспользоваться его богатыми графическими возможностями.

В частности, чтобы понять принцип построения биплота, следует объединить (копированием) две точечные диаграммы, построенные раздельно по значениям главных компонент и факторных нагрузок, соединив лучами точки нагрузок с пересечением осей.

Имитационное моделирование

259

10

ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ В СРЕДЕ EXCEL

Вообще говоря, любая мысль об окружающем мире есть его модель. Имитационная модель – это компьютерная программа, которая служит для количественного отображения поведения реальных объектов в разных условиях. Смысл построения имитационных моделей состоит, во-первых, в том, чтобы установить (выразить уравнением) количественные закономерности протекания явлений природы, во-вторых, – оценить модельные параметры (коэффициентов пропорциональности между переменными уравнений). Параметры моделей часто имеют биологический смысл, поскольку выражают существо отношений между характеристиками объектов исследования.

Моделирование пока не столь широко распространено, как того требуют сложные задачи современной биологии, особенно экологии. На наш взгляд, одним из препятствий этому служит распространенное мнение, что «полноценными» могут быть лишь дающие прогноз аналитические модели; сопряженные с этим сложности построения системы дифференциальных уравнений и их решения оказываются серьезным препятствием для большинства биологов. Однако изучаемые экологические явления сначала нужно понять, дать им объяснение, а уж затем, при необходимости, и прогнозировать.

Мы предлагаем давать количественное объяснение с помощью имитационного моделирования – составлять модели, основанные на простейших (линейных) алгебраических уравнениях, и определять значения их параметров посредством внешних процедур «оптимизации».

Вместо составления и решения дифференциальных уравнений предлагается составлять программы и настраивать параметры имитационных моделей. Обе эти проблемы оптимально решаются в среде пакета Microsoft Excel.

Способ построения моделей на листе Excel отличается от традиционных способов программирования (алгоритмического, структурного или объектного) – это табличное программирование. На листе Excel модель предстает в всех своих деталях, как таблица,