Биостат - помощь / Учебники / Ивантер Коросов Введение в количественную биологию
.pdf
Министерство образования и науки Российской Федерации
Государственное образовательное учреждение высшего профессионального образования ПЕТРОЗАВОДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Э.В. Ивантер
А.В. Коросов
Рекомендовано Министерством образования Российской Федерации
в качестве учебного пособия для студентов биологических специальностей
Петрозаводск Издательство ПетрГУ
2011
ББК 28.08:22.172 И 228
УДК 578.087.1
Рецензенты:
профессор, доктор биологических наук Н. М. Окулова; доцент, доктор биологических наук Н. С. Ростова
Печатается по решению редакционно-издательского совета Петрозаводского государственного университета
Ивантер Э. В., Коросов А. В. |
|
И 228 Введение в количественную |
биологию : учеб. пособие / |
Э. В. Ивантер, А. В. Коросов. –– |
Петрозаводск : Изд-во Петр- |
ГУ, 2011. –– 302 с. |
|
ISBN 978-5-8021-1231-1 |
|
Книга служит элементарным пособием для практического применения вариационной статистики в биологических исследованиях.
В краткой, доступной форме на конкретных примерах рассмотрены приемы количественной обработки материалов биологических наблюдений и экспериментов. Приводятся алгоритмы статистических расчетов, показаны принципы биологической интерпретации математических показателей, раскрыты основы статистического оценивания, проверки гипотез, применения методов корреляционного, регрессионного, дисперсионного, дискриминантного, кластерного анализов, метода главных компонент. Рассмотрен общедоступный метод имитационного моделирования в среде Excel. Книгой можно пользоваться, не имея специальной математической подготовки и не прибегая к более сложным руководствам по биометрии. Она содержит справочные таблицы и рекомендации по выполнению статистического анализа на ЭВМ с помощью пакетов Excel и StatGraphics.
Книга рассчитана на биологов различного профиля, научных и практических работников, студентов, аспирантов, преподавателей вузов и школ, специалистов сельского и лесного хозяйства, здравоохранения и ветеринарии.
ББК 28.08:22.172 УДК 578.087.1
ISBN 978-5-8021-1231-1 © Ивантер Э. В., Коросов А. В., 2011
©Петрозаводский государственный университет, 2011
Введение |
3 |
ВВЕДЕНИЕ
В процессе любых научных, особенно экспериментальных, исследований, как и во всех областях прикладной биологии (медицине, агробиологии, селекции, охотоведении, лесоводстве, биотехнологии и т. д.), мы всегда имеем дело с цифрами – данными о размерах, весе, возрасте, плодовитости организмов, продуктивности экосистем, урожайности сортов, соотношении между признаками, дозами факторов, различными диагностическими и иными тестами и прочими количественными показателями и числовыми характеристиками. За многообразим этих цифр прячутся конкретные закономерности, которые требуют объективной оценки и научного объяснения. И здесь самое широкое применение находят приемы биометрии – пограничной дисциплины, призванной с помощью соответствующего математического аппарата оценить разнообразные связи, зависимости и отношения между биологическими явлениями, объектами и процессами и показать реальность их существования.
Биометрия представляет собой инструмент, способный измерить значимость и надежность полученных результатов, заранее рассчитать и спланировать необходимую численность объектов для того или иного эксперимента, оценить достоверность проверяемой в эксперименте гипотезы, по части охарактеризовать целое, получить точную количественную характеристику изменчивости исследуемого показателя, определить степень и характер различий между признаками и процессами, выделить из множества воздействующих на явление факторов наиболее важные, измерить силу их влияния. Методологией количественной биологии является отделение случайного от закономерного, доказательство существования закономерного в видимом хаосе изменчивости. Это достигается посредством множества методов прикладного статистического анализа, основанных на знании закономерностей поведения случайных величин.
Игнорирование и недооценка статистической обработки полученного исследователем материала может свести на нет результаты многих важных опытов, привести к необоснованным или даже ошибочным заключениям. Напротив, умелое применение биометрических методов увеличивает информативную ценность проведенного иссле-
Введение |
4 |
дования, обогащает экспериментатора новыми знаниями, помогает правильно планировать постановку опытов, глубоко разбираться в полученных данных, объективно оценивать результаты массовых наблюдений, выявлять скрытые закономерности и правильно их трактовать, что в конечном итоге делает биологию точной наукой.
При этом следует иметь в виду, что сама по себе статистическая обработка данных, как бы ни была она совершенна с точки зрения математики, не может служить гарантией качественности выполненного биологом исследования и не способна обеспечить надежности полученных им результатов, если само исследование проведено неправильно или использованные данные ошибочны. Более того, формальное применение математических методов, без понимания их сути и слепое использование ее, даже когда в этом нет никакой необходимости, может принести только вред. В работе биолога одинаково недопустимы как математический фетишизм, подмена биологических методов математическими, так и недооценка статистических приемов обработки.
Составляя настоящее руководство, мы попытались в возможно более простой форме изложить элементарные основы количественной биологии, разъяснить суть и назначение вариационно-статисти- ческой обработки количественных данных, помочь начинающему исследователю, не имеющему специальной математической подготовки, сознательно применять общедоступные методы биометрического исследования, познакомить его с порядком и способами расчета основных статистических показателей и принципами их биологической интерпретации. В книге обсуждаются возможности и перспективы применения различных статистических приемов, их достоинства и формы использования в повседневной практике биологических исследований. Сознательно отказавшись от строгого изложения математических аспектов теории биометрии, подробного объяснения и вывода сложных расчетных формул, мы сконцентрировали внимание на необходимом минимуме статистических идей, помогающих понять принципы биометрического анализа массовых явлений и характерных биологических задач, и прежде всего на технике вычислений. Рассмотрены только те статистические методы, которые авторы достаточно широко применяли в своих биолого-экологических исследованиях и на личном опыте убедились в их эффективности. Другие ме-
Введение |
5 |
тоды статистического исследования приведены в специальных пособиях по вариационной статистике; некоторые из них указаны в списке рекомендуемой литературы (приемы описания биоразнообразия, анализ временных рядов и многомерное шкалирование рассмотрены в книге: Коросов, 2007).
Для каждого метода приведены алгоритмы ручного счета и примеры использования с этой целью пакета Microsoft Excel. Наша книга во многом ориентирована на использование этого пакета и содержит примеры работы в среде MS Excel. Для решения более сложных задач требуются специальные пакеты статистических расчетов, такие как StatGraphics (часть задач решалась в этой среде) или Statistica (см. пособие: Коросов, Горбач, 2010).
Вконце книги приведены справочные таблицы, необходимые для статистической обработки данных, и предметный указатель.
Поскольку книга выполняет роль учебного пособия, вводимые понятия постепенно усложняются и главы лучше читать по порядку. Вместе с тем многие положения разделов 1 и 2 полезно перечитывать по мере овладения новыми методами расчетов. Эти главы содержат больший «методологический заряд», чем можно освоить при единственном прочтении в начале освоения курса. Многие мысли первых разделов становятся понятными только после приобретения некоторого опыта выполнения расчетов и начнут помогать только после нескольких повторных прочтений.
Вновом издании заново отредактирован текст, исправлены обнаруженные ошибки, расширен круг примеров, изменены некоторые иллюстрации. Мы признательны всем читателям, приславшим свои замечания к рукописи, и с благодарностью примем новые. Наш адрес: korosov@psu.karelia.ru
6 |
Принципы количественной биологии |
1
ПРИНЦИПЫ КОЛИЧЕСТВЕННОЙ БИОЛОГИИ
Основные задачи количественной биологии
Биометрия – это инструмент эмпирического познания природы, в отличие от математической биологии, исследующей теоретические проблемы с помощью аналитического моделирования.
Методы количественной биологии (биометрия) призваны конкретизировать отображение биологических фактов, придать строгость биологическим выводам и прогнозам, способствовать целенаправленному исследованию биологических феноменов. Можно говорить о четырех основных задачах количественной биологии.
1.Задача количественного представления биологических фактов (измерение и сокращение размерности) – выразить свойства отдельного биологического объекта измерения в виде числа, варианты, значения переменной.
2.Задача обобщенного описания множества фактов (статистическое оценивание) – рассчитать показатели, параметры, которые полноценно отражают свойства множества однотипных объектов измерения, свойства выборки.
3.Задача поиска закономерностей (проверка статистических гипотез)
– доказать неслучайность отличий между сравниваемыми совокупностями, объектами, показать реальность зависимости их характеристик от неких внешних или внутренних причин.
4.Задача исследования процессов (динамическое имитационное моделирование) – объяснить ход природного процесса множеством специфических отношений (выраженных уравнениями) между переменными биологического объекта и среды.
Для решения каждой из этих задач предлагаются достаточно простые, но эффективные способы, рассмотренные ниже.
Принципы количественной биологии |
7 |
Модель
Математическая статистика предлагает исследователю различные модели действительности, с помощью которых можно решать биометрические задачи разной сложности. В слове «модель» заключено только одно содержание: все, что мы думаем о действительности, есть ее отражение в нашем сознании, слепок, подобие. Мысль о природе есть ее модель.
Число – это тоже модель, способ мышления о существенных чертах объектов, отбор из бесчисленного множества его свойств лишь некоторых с указанием того или иного числового значения.
Модели в виде простой формулы часто используются в иллюстративных целях для краткого выражения неких общих мыслей. Таковы рассмотренные ниже понятийные модели варианты, на которых основаны разного рода статистические методы.
Для строгого описания действительности статистическая теория предлагает множество математических моделей. Центральной моделью выступает «закон нормального распределения» – функция, описывающая специфическое соотношение между значениями непрерывной случайной величины (t) и частотой (вероятностью) встречаемости ее значений (p):
|
|
1 |
|
|
−t2 |
p = |
|
× e |
2 |
||
2π |
|
||||
|
|
|
|
|
|
(формула плотности вероятности непрерывной случайной величины). Когда говорят, что данный признак имеет нормальное распределение, подразумевается, что «стохастическое поведение» этой случайной величины очень хорошо описывается (аппроксимируется) приведенной формулой. Практика показывает, что эта формула подходит к очень большому числу количественных характеристик. Модель нормального распределения чаще других используют для описания случайных событий. Ее применение (предположение о «нормальности» изучаемых признаков) дает в руки исследователя-биолога множество полезных и удобных инструментов решения биологических задач. Это и интервальная оценка для прогноза ожидаемых значений случайной величины, и метод расчета наиболее теоретически обоснованных общих характеристик выборки (средних, дисперсий) и
8 |
Принципы количественной биологии |
показателей сопряженной изменчивости разных признаков (корреляции), и пр. На идее нормального распределения базируются конструкции всевозможных статистических критериев для сравнения параметров разных выборок и проверки статистических гипотез. Кроме нормального закона статистической наукой обнаружены другие виды поведения случайных величин, которые основаны либо на том или ином допущении о нарушении условий формирования нормального закона, либо на специфическом преобразовании случайной величины, исходно распределенной нормально.
Этапы биометрического исследования
Биология по большей части остается наукой эмпирической: сбор фактов в поисках закономерностей проявления природных феноменов доминирует над объяснением существа этих процессов, построением теории (особенно количественной) и прогноза. Поиски «закономерностей» в биологии явно превалируют над поисками «законов», в первом случае говорят об эмпирической (индуктивной) науке, во втором – о теоретической (дедуктивной). Методы, рассмотренные в книге, обслуживают потребности первого научного направления. При этом сохраняется надежда, что из обнаруженных закономерностей со временем «вырастут» биологические законы.
Математическая статистика, исследующая массовые проявления, служит средством доказательства существования той или иной закономерности, причинной обусловленности серии фактов. Факт сам по себе, раз случился, достоверен. Доказывать приходится достоверность существования причин, вызвавших факты к жизни и тем самым обеспечивающих их общность. Если наличие некоей причины обуславливает однотипность протекания биологических процессов, вызывает повторные появления сходных результатов, говорят о обнаружении закономерности. Закономерное – это повторяющееся, причем в зависимости от известных условий (причин). Биометрия представляет способы доказательства реальности эмпирических закономерностей. Они служат необходимым средством достижения биологом своих целей, установленных исходя из существа биологической проблемы. В этом смысле для биометрического исследования очень важна точная формулировка биологического вопроса.
Принципы количественной биологии |
9 |
Мало обнаружить закономерность, необходимо еще и показать ее реальность, а для этого следует оценить ее количественно. Статистический анализ как раз и служит этой двойной задаче: во-первых, численно охарактеризовать биологический объект, явление или процесс, его масштабы и тенденции и, во-вторых, доказать объективность его существования, достоверность отличия от других явлений или процессов. Опираясь на полученный научный материал, статистика способна доказать несостоятельность выдвинутых гипотез, отделить, как зерна от плевел, истинные отличия от случайных, привнесенных неучтенными факторами, вычленить реальную закономерность из обилия сырого экспериментального материала.
К сожалению, исследователи зачастую подменяют цели исследования средствами их решения, что понятно из такого типичного вопроса: «Вот мои данные, как их нужно статистически обработать?» Конструктивный диалог может начаться только после ответа на другой вопрос, зачем эти данные нужно как-то обрабатывать, зачем вообще они были собраны? Нам кажется, что такой диалог должен быть внутренним и обязан предварять не столько обработку, сколько сбор данных. Как писал отец эмпирической науки Ф. Бэкон, «правильно поставленный вопрос есть половина ответа». Цель исследования организует его. Спланировать способ обработки нужно перед сбором фактических данных!
Ввиду очевидной сложности этого процесса рассмотрим его
основные этапы эмпирического исследования.
1. Определить объект исследования. Объект исследования – это не вид животного или растения, это исследуемый феномен со всеми относящимися к делу внешними компонентами, включая пространство (распространение) и время (динамика). Объектом биологии выступает жизнь – процессы жизнедеятельности, функционирования биосистем. Объектом частного биологического исследования выступает ограниченная во времени и пространстве биосистема. В частности, даже «фауна N-го района» – понятие динамическое.
2. Определить проблему и актуальность исследования.
Проблема («Что плохо?») в научном плане есть отсутствие знаний об объекте исследования в определенной области его биологии. Потребность в недостающей информации появляется в том случае, когда уже имеются некоторые данные, обрисовывающие границы известного и
