Биостат - помощь / Учебники / Ивантер Коросов Введение в количественную биологию
.pdf
150 Задача «Доказать отличие нескольких выборок»
ся командой меню Сервис/ Анализ данных … . Как отмечалось выше, эта схема организации данных не позволяет разделить случайное варьирование и взаимодействие факторов. Например, если в качестве исходных данных взять только первые значения из предыдущего набора (табл. 7.8), дисперсионный анализ без повторений даст следующие результаты (рис. 7.4).
Рис. 7.3. Двухфакторный дисперсионный анализ на листе Excel
Как видно из таблицы анализа, изменчивость, обусловленная взаимодействием факторов, объединена со случайной в строке «Погрешность».
Рассмотренные схемы дисперсионного анализа принципиально соответствуют и более сложным задачам, в частности, многофакторному дисперсионному анализу. Поскольку статистическая обработка многофакторных (особенно неравномерных) комплексов требует значительного увеличения расчетных работ, для таких задач мы рекомендуем использовать не возможности Excel, но специализированные пакеты программ ЭВМ, например StatGraphics.
Задача «Доказать отличие нескольких выборок» |
151 |
|
|
|
|
|
|
|
Рис. 7.4. Двухфакторный дисперсионный анализ данных без повторений на листе Excel
Дисперсионный анализ в среде StatGraphics
Рассмотрим использование пакета StatGraphics для проведения двухфакторного дисперсионного анализа по тем же данным. Исходные данные для обработки с помощью пакета StatGraphics лучше всего подготавливать на листе Excel, а затем импортировать в StatGraphics. Среда Excel более «дружелюбна», допускает операции автозаполнения и к тому же при импорте названия переменных назначаются автоматически (см. ниже). Пакет StatGraphics (версия 2.1) разработан для ранних версий Windows, поэтому импорт данных возможен только в старых форматах файлов типа *.dbf (для dBase II, III) или *.xls. (для MS Excel 4.0). Общий порядок операций по обработке данных таков:
–подготовка данных в среде Excel,
–экспорт данных в файле типа *.xls. для MS Excel 4.0,
152Задача «Доказать отличие нескольких выборок»
–импорт данных в среду StatGraphics,
–проведение расчетов.
Подготовим данные из табл. 7.8 для двухфакторного дисперсионного анализа в среде Excel.
Чтобы StatGraphics мог распознать градации факторов, при которых получены значения результативного признака Е (плодовитость), нужно ввести коды для доз обоих факторов, причем в форме числовых переменных. Так, первые 9 значений плодовитости получены при действии дозы 1 фактора А, следующие 9 значений – при дозе 2; вводим для этих значений признака Е коды доз 1 (ячейки A2:A10) и 2 (ячейки A11:A19). Каждая из этих градаций включает по три градации фактора В, введем их коды в столбец В. Третий столбец образуют собственно значения результативного признака плодовитости (Е), полученные в соответствующих градациях двух факторов.
Так, значение Е = 11 (ячейка C7) получено при дозах А = 1, В = 2. Если проводится изучение действия более чем двух факторов, на листе организуются все новые и новые столбцы с кодами градаций факторов. При этом важно следить, чтобы были представлены все сочетания градаций. В нашем случае, например, и градация А1, и градация А2 должны содержать по три градации второго фактора: В1, В2, В3. При этом StatGraphics не требует равного объема выборок для всех градаций.
Экспорт подготовленных данных из среды Excel осуществляется командой меню Файл\ Сохранить как …. В окне Тип файла:
следует выбрать Файл Microsoft Excel 4.0. В окне Имя файла: задать новое имя, чтобы не утратить информацию, содержащуюся на дру-
Задача «Доказать отличие нескольких выборок» |
153 |
гих листах текущей книги, ОК. Далее, на запрос о сохранении только текущего листа ответить ОК.
Импорт данных в среду StatGraphics осуществляется третьей слева кнопкой панели Toolbar или командой меню
File\ Open Data File... . В окне Тип файлов (Files type:) появившегося фрейма выделить Excel Files (*.xls), затем следует указать директорию, содержащую искомый файл, щелкнуть на его имя и Открыть.
154Задача «Доказать отличие нескольких выборок»
Впоявившемся окошке Read Excel File указать, что имена переменных Variable Names нужно брать из первого ряда (from first row), ОК.
Информация из файла попадет в блок данных, чья свернутая панель расположена слева внизу. Развернуть окно данных можно двойным кликом на «шапке».
Расчеты по схеме двухфакторного дисперсионного анализа запускаем командой меню Compare\ Analysis of Variance\ Multifactor ANOVA.
В появившемся окне Multifactor ANOVA результативный признак Е заносим в графу «зависимая переменная» (Dependent Variable:), т. е. выделяем имя мышкой и нажимаем на кнопку стандартного отклонения стрелкой. Оба фактора заносим в графу Factors:, ОК. Сразу же все расчеты будут выполнены, но отобразится только одна панель с общим описанием переменной и факторов.
Задача «Доказать отличие нескольких выборок» |
155 |
Для отображения главных результатов, в первую очередь таблицы дисперсионного анализа, нужно нажать на вторую слева желтую кнопку (Tabular options), в новом окне отметить галочкой ANOVA Table или нажать кнопку All, ОК.
Чтобы раскрыть новое окно Analysis of variance for E, следует на нем дважды кликнуть. Раскроется таблица дисперсионного анализа, рассчитанная по схеме «без повторений» и не содержащая оценку взаимодействия факторов. Рассчитать этот эффект можно, изменив установки анализа. Правой кнопкой мыши нужно щелкнуть на поле дисперсионной таблицы и выбрать из контекстного меню пункт Analysis options, после чего в окошке Multifactor ANOVA options указать, что число взаимодействующих факторов равно 2, ОК.
156 Задача «Доказать отличие нескольких выборок»
Дисперсионная таблица сразу приобретет строку учета взаимодействия (INTERACTIONS AB). С помощью этой опции можно эффективно регулировать «глубину» учета взаимодействий, когда исследуется несколько факторов.
Результаты дисперсионного анализа полностью идентичны табл. 7.8 и табл. 7.9. Важно отметить, что итог всех вычислений в среде StatGraphics сопровождается комментариями о методах расчета, а также статистическими выводами. Текст комментариев можно скопировать в буфер обмена из окна StatAdvisor.
Задача «Найти зависимость между двумя признаками» 157
8
ЗАДАЧА «НАЙТИ ЗАВИСИМОСТЬ МЕЖДУ ДВУМЯ ПРИЗНАКАМИ»
Изложенные выше методы статистического анализа дают возможность изучать изменчивость биологических объектов по отдельным признакам – весу, размерам, плодовитости, физиологическим показателям и др. Однако в ряде случаев важно знать, какова зависимость между вариацией двух или нескольких признаков, изменяются ли две переменные самостоятельно, независимо друг от друга, или изменчивость одного признака в какой-то степени связана с изменчивостью другого. В качестве второй переменной часто выступает какой-либо фактор среды.
Эту задачу можно рассматривать как развитие метода дисперсионного анализ, решающего задачу сравнения нескольких выборок (изучения влияния фактора на признак). Техника дисперсионного анализа имеет две особенности. Во-первых, фактор (факториальный признак) задан дискретно, в виде градаций, или «доз». Когда исследуется фактор, заданный качественно, то градации оказываются очень эффективным способом его превращения в подобие количественно заданного фактора. Вместе с тем фактор, выраженный количественной величиной, имеет большее число значений, чем число градаций. Тогда в грубой градуальной схеме дисперсионного анализа утрачивается часть информации, имеющейся в исходных выборках. Кроме этого, дисперсионный анализ явным образом не учитывает тенденции изменения среднего уровня признака при изменении уровня фактора, не содержит показателя динамики зависимости признака от фактора.
Сделать необходимые дополнения позволяет исследование сопряженной (взаимозависимой) изменчивости признаков в рамках регрессионного и корреляционного анализов. Способ представления отдельных наблюдений здесь меняется: каждая варианта рассматривается как носитель двух численных характеристик объекта измерения, двух зависимых значений случайной величины. Если выше мы отождествляли отдельное значение с отдельной вариантой, то теперь мы рассматриваем варианту как некоторое тело, объект, обла-
158 Задача «Найти зависимость между двумя признаками»
дающий, как минимум двумя зарегистрированными качествами, различными у разных вариант:
x |
x |
x |
y |
y |
y |
Например, для любого животного можно определить массу (M) и длину (L) тела; отдельная варианта будет нести два значения (L, M). При этом множество вариант выборки можно отобразить графически как точки на плоскости осей двух признаков M и L.
y (M)
x (L)
Вся выборка предстанет в виде множества точек на плоскости (двумерное рассеяние). Как видно на диаграмме, «облако» вариант вытянуто в направлении диагонали облака точек. Справа вверху находятся варианты с высокими значениями и размеров, и массы тела, в левом нижнем углу – с наименьшими значениями. В центре находятся варианты с промежуточными, средними значениями.
Впервом приближении двумерное распределение – это простая ординация вариант на плоскости осей двух признаков.
Помимо рассеяния на плоскости в определение двумерного распределения входит и частота встречаемости отдельных вариант.
Всоответствии с идеологией регрессионного анализа признаки x и y должны подчиняться нормальному закону. Значит, для каждого значения x признак y дает множество нормально распределенных значений; то же и для каждого значения признака y (для случая математической совокупности бесконечного объема) (рис. 8.1). Скопление вариант в трех осях (оси признаков x, y и частоты а) образует весьма странный «бугор», растянутое в пространстве трехмерное нормальное распределение. Однако в реальности такой идеальной картины получить никогда не удается, приходится ориентироваться только на плоскую фигуру рассеяния немногочисленных вариант.
Если область, занятую вариантами, очертить по периферии плавной линией, мы получим вытянутую фигуру, эллипс, ограничи-
Задача «Найти зависимость между двумя признаками» 159
вающий область рассеяния вариант, эллипс рассеяния. Эллипс рассеяния – это область распространения вариант одной совокупности.
Можно видеть, что в нашем случае признаки связаны друг с другом – есть общая тенденция: чем больше длина тела, тем больше вес, хотя эта зависимость и не очень жесткая, но размыта индивидуальными особенностями.
Рис. 8.1. Двумерное распределение
|
|
Таблица 8.1 |
|
Задача |
Содержание задачи |
Методы |
|
Доказать зависимость |
Признак x служит |
Регрессионный, |
|
дисперсионный и |
|||
одного признака |
доминирующим факто- |
||
от другого |
ром для признака y |
корреляционный |
|
анализы |
|||
|
|
||
Доказать зависимость |
Переменные x1, x2, … |
Множественная |
|
одной переменной от |
корреляция, |
||
влияют на признак y |
|||
нескольких других |
регрессия |
||
|
|||
Доказать взаимозави- |
Признак x служит доми- |
Корреляционный |
|
симость двух призна- |
нирующим фактором для |
анализ |
|
ков |
признака y, и наоборот |
||
|
|||
Доказать связь двух |
Признак z служит доми- |
Метод частной |
|
признаков, исключив |
нирующим фактором для |
||
влияние третьего |
признаков x и y |
корреляции |
|
|
|||
Доказать зависимость |
Изменчивость признаков |
Коэффициент |
|
неколичественных |
сопряжена |
Спирмена |
|
признаков |
|||
|
|
