Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Математические методы в биологии.doc
Скачиваний:
40
Добавлен:
13.11.2019
Размер:
2.49 Mб
Скачать

Логистическая регрессия

При изучении линейной регрессии мы исследуем модели вида:

Y =a + b1*x1 + b2*x2 + …+bq * xq + e.

Здесь зависимая переменная Y является непрерывной, и мы определяем набор независимых переменных xi и коэффициенты при них bi, которые позволили бы нам предсказывать среднее значение Y с учетом наблюдаемой ее изменчивости.

Во многих ситуациях, однако, Y не является непрерывной величиной, а принимает всего два возможных значения . Обычно единицей в этом случае представляеют осуществления какого-либо события (успех), а нулем - отсутствие его реализации ( неуспех).

Среднее значение Y - обозначенное через p, есть доля случаев, в которых Y принимает значение 1. Математически это можно записать как:

p = P(Y=1) или,

p = P("Успех")

В этом случае нам хотелось бы уметь оценивать величину p и определять факторы (независимые переменные xi (непрерывные), которые влияют на переменную Y.

Вероятно, первой попыткой было бы опробование модели вида

p = a + b1 * x1. (2)

(Мы для простоты рассматриваем уравнение для одной независимой переменной).

В принципе это та же стандартная линейная регрессионная модель в которой Y - зависимая непрерывная переменная заменена на вероятность p. Однако, исследование такой модели показывает ее непригодность, поскольку p - вероятность и ее значения ограничиваются интервалом (0,1), а правая часть уравнения, напротив, может иметь значения , лежащие вне указанного выше интервала.

Можно попробовать применить модель вида

p = e a + b1 * x1

Это уравнение гарантирует, что оценки для p будут положительными. Однако, изучая модель, мы бы скоро осознали, что и эта модель не пригодна. В самом деле, правая часть уравнения может давать значения большие единицы.

Для устранения этого ограничения нам нужно применить модель вида

P = e a + b1 * x1 /(1 + e a + b1 * x1 )

Выражение, стоящее справа от знака равенства, называется логистической функцией. Она не может принимать как отрицательные значения, так и значения большие единицы, и, следовательно, ограничивает оценки для p требуемым интервалом.

Несложные математические преобразования позволяют от уравнения перейти к уравнению:

ln[ p / (1 - p)] = a + b1 * x1

По определению величина p / (1 - p) представляет собой "шансы успеха". По этой причине моделирование p с помощью логистической функции эквивалентно использованию линейной регрессионной модели, в которой непрерывная переменная Y заменена логарифмом от "шансов успеха", то есть мы полагаем, что зависимость между ln[ p / (1 - p)] и x1 линейная.

Для оценки статистической значимости всего уравнения в целом, с помощью метода правдоподобия вычисляется статистика χ2.

Анализ динамических изменений Применение метода наименьших квадратов при исследовании тенденции развития

Изучаемые биологией явления с течением времени часто меняют свою интенсивность; изменения эти отражаются на развитии явлений и при их изучении необходимо учитывать величину и направление изменений.

Методы статистики позволяют измерить размеры произошед-ших изменений и количественно охарактеризовать направление их развития. Количественное измерение изменений, наступающих с течением времени, можно провести при помощи следующих показателей.

  1. Абсолютный уровень - фактический, количественный размер изучаемого явления. Ввиду того, что с течением времени эти размеры изменяются, абсолютный уровень обычно дается для каждого периода времени отдельно. Абсолютный уровень является основой для расчета производных показателей: абсолютный прирост, темп роста и темп прироста.

  2. Абсолютный прирост - величина - разность абсолютного уровня в данный период времени и абсолютного уровня предыдущего периода. Эта разность может быть как положительной, так и отрицательной величиной.

  3. Темп роста - процентное отношение между абсолютным уровнем данного периода и абсолютным уровнем предыдущего периода или какого-нибудь другого периода, принятого за исходный. В первом случае говорят о показателях темпа развития, вычисленных при цепном основании, а во втором - о показателях, вычисленных при постоянном основании. Показатели темпа развития, вычисленные при постоянном основании, носят также название показателей наглядности. Иногда показатели темпа развития, вычисленные при цепном основании, называются показателями динамики или коэффициентами роста.

  4. Темп прироста - процентное отношение между абсолютным приростом данного периода и абсолютным уровнем предшествующего периода. Абсолютный прирост может быть отрицательным или положительным, отсюда и темп прироста может быть отрицательным или положительным.

Пример: Имеются данные о количестве отловленных бабочек с периода 2003 по 2005 гг.

Год

Абсолютный уровень

Абсолютный прирост

Темп роста

%

Темп прироста

%

при постоянном основании

при цепном основании

2003

30

-

100

-

-

2004

50

+20

185

185

+85

2004

60

+10

200

120

+20

В качестве недостатка показателей абсолютного прироста можно указать на то, что их значения приводятся в абсолютных именованных числах, а это затрудняет сравнение разных показателей абсолютного прироста.

Показатели абсолютного прироста не могут поэтому ответить на вопрос, в каком из рассматриваемых явлений процесс развития протекает более интенсивно и где он медленнее. Для большей наглядности пользуются показателями темпа роста и темпа прироста. Они позволяют проследить процесс изменения изучаемых явлений, выраженный в относительных величинах. Так как относительные величины не именованные числа, их можно сравнивать между собой.

Довольно часто имеется необходимость в обобщающей характеристике показателей динамики изучаемых явлений. Для этой цели используется целый ряд средних величин, называемых хронологическими, так как они вычисляются из динамических хронологических рядов. Известны так называемые показатели среднего уровня, среднего прироста, среднего темпа роста и среднего темпа прироста.

Показатель среднего уровня дает сведения о среднем размере или объеме изучаемых явлений и служит типичным представителем для всех периодов, представленных в динамическом ряду.

Техника вычисления показателей среднего уровня различна в зависимости от того, из какого динамического ряда будут вычисляться эти показатели - интервального или моментного.

В интервальном статистическом ряду показатель среднего уровня - средняя арифметическая величина, полученная путем усреднения отдельных показателей абсолютного уровня (пример). Показатель среднего уровня обозначается Y (в отличие от X - символа средней величины, вычисленной из вариационного ряда). Y=SY/n. Y - средняя хронологическая.

В моментном статистическом ряду техника вычисления показателя среднего уровня следующая: сначала вычисляют абсолютный уровень изучаемого явления, относящегося к середине каждого из интервалов. Полученные величины усредняют.

Пример: Имеются данные от численности зайцев на 31 декабря каждого года. Требуется найти среднегодовое число зайцев за весь рассматриваемый период.

Год

на 31.12

на 1.7

1990

100

-

1991

90

95

1992

80

85

1993

90

85

1994

100

95

360

Для этого сначала находят средние числа зайцев для каждого календарного года. Затем вычисляют среднюю из найденных величин, являющуюся показателем среднегодового уровня. Оба эти этапа работы по вычислению среднегодового уровня могут быть представлены в виде следующей формулы:

=(100+180+160+180+100)/8=720/8=90, где Yi - показатели абсолютного уровня изучаемого явления к концу каждого из интервалов времени; n - число интервалов.

Приведенная формула для вычисления хронологических средних моментного статистического ряда относится только к равновеликим интервалам времени. В противном случае хронологическую среднюю необходимо вычислять как среднюю взвешенную, где веса - длительность отдельных интервалов.

На практике часто применяют и другой обобщающий показатель, при помощи которого можно получить представление о динамике изучаемого явления. Это показатель среднего темпа роста. При помощи показателя среднего темпа роста получают сведения о средней величине темпа, с которым проходили изменения, отмеченные за определенное время. Показатели темпа роста являются отношением абсолютного уровня текущего периода к абсолютному уровню какого-нибудь другого базисного периода. Для измерения среднего темпа роста необходимо вычислять среднюю геометрическую , где Y - усредняемые величины, показывающие темп роста в отдельные интервалы времени; n - число этих интервалов, R - произведение.

Год

на 31.12

темп роста на цепном основании

1990

100

-

1991

90

90

1992

80

88

1993

90

115

1994

100

111.1

= =103 %. Приведенный способ вычисления Y затруднителен из-за большого объема вычисли-тельной работы. Поэтому рекомендуется пользоваться логариф-мами чисел темпов роста. Для этого логарифмируют исходную формулу и получают: logYг=logY/n. Развитие изучаемых явлений может быть охарактеризовано изменениями, наступающими в них с течением времени. Изменения в явлениях наступают в результате комбинированного действия многих разнообразных факторов. Их можно разделить на 2 основные группы: длительно действующие и временно действующие. Длительно действующие факторы определяют тенденцию развития, а временно действующие - затушевывают ее и вносят в нее элементы случайности.

Для определения воздействия названных двух групп факторов поступают следующим образом: исходя из известных теоретических предположений о тенденции развития, изолируют влияние временно действующих случайных причин и находят так называемые теоретические величины - Yt. Это те величины изучаемого явления, которые имелись бы в каждом из рассматриваемых интервалов времени, если бы было исключено действие случайно действующих факторов. Так как на фактические величины Y оказывали влияние наряду с длительно действующими факторами и временно действующие, разность фактически наблюдаемых величин и теоретически ожидаемых (Y-Yt) указывает на размер действия временно действующих случайных факторов. Таким образом, при помощи Yt количественно определяют действие длительно действующих, а при посредстве разности (Y-Yt) - действие временно действующих факторов.

Процесс расчета теоретически ожидаемых величин Yt носит название «выравнивание динамических рядов». В целях выравнивания пользуются следующими методами:

  1. Графический метод.

  2. Метод удлинения периодов.

  3. Метод скользящей средней.

  4. Метод наименьших квадратов.

Рассмотрим эти способы выравнивания, используя один общий пример. Имеются следующие данные о числе популяции сусликов с 1985 по 1995гг. Требуется выявить тенденцию колебания численности и количественно определить влияние длительно действующих и временно действующих факторов.

Год

Число

Графический метод

Удлинение периодов

Скользящая средняя

Yt

Y-Yt

1985

100

120

-20

1986

110

111

1

105

105

1987

105

107

2

105

1988

100

103

3

103

100

1989

95

95

0

91

1990

87

90

-3

91

87

1991

80

85

-5

82

1992

80

80

0

80

82

1993

75

75

0

72

1994

60

70

-15

67

Графический метод. Первоначально на линейной диаграмме изображают графически фактические числа количества сусликов. Получают ломаную линию, изображающую тенденцию изменения их численности. Затем от руки или при помощи линейки, лекала и т. п., следуя фактическим данным, вычерчивают прямую или кривую линию. Эта линия позволяет увидеть общую тенденцию развития. Определяя по этой линии величины соответствующих интервалов, находят теоретически ожидаемые величины Yt. Они характеризуют влияние длительно действующих факторов. Влияние временно действующих факторов можно выразить количественно разностью фактических и теоретически ожидаемых величин.

Преимущество описанного графического метода состоит в том, что его можно применять легко и быстро. Недостаток его в том, что в оценке тенденции развития сказывается некоторый субъективизм того, кто применял этот метод.

Метод удлинения периодов. В целях устранения резких отклонений в величинах динамических рядов в отдельные годы производится объединение, укрупнение периодов. Для объединенных периодов вычисляют средние хронологические величины, которые наносят на линейную диаграмму. Через них проводят линию, график которой дает возможность по ординате получить теоретически ожидаемые величины. Метод удлиненных периодов является попыткой улучшить графический метод выравнивания динамических рядов.

При использовании метода удлинения периодов возникает вопрос о количестве лет, объединяемых вместе. В рассматриваемом примере приняты двухлетние периоды. При определении того, какой должен быть укрупненный период, следует провести анализ изучаемых числовых величин и в соответствии с результатами подобрать наиболее подходящее укрупнение. Следует отметить, что при этом также сказывается субъективная оценка исследователя.

При пользовании методом удлинения периодов теряется часть сведений о теоретически ожидаемых величинах. Например при двухлетнем укрупнении теряются сведения о первом годе. При трехлетнем - о первом и двух последних и т. д.

Метод скользящей средней. При нем тенденция развития представлена последовательной серией сплетающихся средних. Эти средние представляют теоретически ожидаемые величины Yt и вычисляются следующим образом. Например, если приняты трехлетние периоды для усреднения, то первая средняя получается путем усреднения фактических чисел первого, второго и третьего годов, полученная величина будет относиться ко второму году. Вторая средняя получается путем усреднения второго, третьего и четвертого годов, полученная величина будет относиться к третьему году и т. д.

Легко заметить, что при методе скользящей средней теряется часть сведений, так же как при методе удлинения периодов. При определении числа лет для усреднения фактических чисел не малую роль играет и субъективизм исследователя.

Метод наименьших квадратов.

Этот метод преследует ту же цель, что и описанные выше три метода: устранить влияние временно действующих факторов и выявить тенденцию развития, вызванную только действием длительно действующих причин. Тенденцию развития лучше всего можно выразить линией, наиболее близкой к фактическим данным, это достигается методом наименьших квадратов, называемым так потому, что сумма возведенных в квадрат разностей фактических чисел - Y и теоретически ожидаемых - Yt - наименее велика, т.е. (Y-Yt)20. Этому условию в каждом конкретном случае отвечает только одна линия, поэтому метод наименьших квадратов можно считать наиболее объективным способом выявления тенденции развития и рекомендовать его для широкого применения.

Для того, чтобы применить способ наименьших квадратов, следует проделать следующие этапы работы.

Сначала, после соответствующей оценки характера развития и изменений изучаемых явлений, производят выбор подходящего вида и характера линий, наиболее соответствующей тенденции развития. Например, если тенденция развития прямолинейна, то точнее всего ее представить при помощи прямой линии, уравнение которой: Yt=a+bx. Если тенденция криволинейна, вначале восходящая, а затем нисходящая, то ее можно представить в виде параболы второй степени с уравнением: Yt=a+bx+cx2.

На следующем этапе для получения числовых значений параметров a, b, c, d и т.д. составляют систему уравнений. При решении системы уравнений получают конкретные числовые значения параметров. Если в уравнении линии, соответствующей по своему характеру тенденции развития, имеется два неизвестных параметра, применяется система двух уравнений. Например, для прямой Yt=a+bx применяется система двух уравнений, для параболы второй степени система трех уравнений и т.д.

В зависимости от того, сколько параметров имеет линия, выражающая основную тенденцию развития, столько уравнений требуется решить.

На третьем этапе работы после решения системы уравнений и получения конкретных числовых значений параметров, определяющих место соответствующей линии в системе координат, путем ряда последовательных подстановок в уравнения полученных величин X (условно принята нумерация периодов) получают теоретически ожидаемые величины Yt. Истолкование результатов при этом аналогично описанному при других способах выравнивания динамических рядов. Разность фактических наблюдаемых величин - Y и теоретически ожидаемых - Yt указывает количественно влияние временно действующих - случайных причин.

Давайте технику применения метода наименьших квадратов при использовании разных видов линий, выявляющих тенденцию развития, проиллюстрируем следующими примерами.

Прямолинейное выравнивание - несокращенный метод. О многих явлениях, являющихся объектом изучения науки можно сказать, что изменения в них с течением времени протекают прямолинейно, т.е. их развитие можно представить в виде прямой, уравнение которой: Yt=a+bx.

Например, рассмотренный нами пример по праву можно отнести к нисходящим прямолинейным. Это позволяет выразить тенденцию развития популяции в виде прямой. Система уравнений при помощи которых определяются параметры, следующая:

Y=Na+bX

XY=aX+bX2

где Y - фактические числовые величины изучаемого явления за каждый из периодов.

X - условная нумерация периодов. Эта нумерация обычно начинается с нуля и идет в естественном порядке чисел - 0,1,2,3,4, и т.д.

N - численность изучаемых периодов.

Используя приведенные ранее данные, получаем следующее.

Год

Y

X

XY

X2

Yt=a+bx

1985

100

0

0

0

110

1986

110

1

110

1

105.2

1987

105

2

210

4

100.4

1988

100

3

300

9

95.6

1989

95

4

380

16

90.8

1990

87

5

435

25

86

1991

80

6

480

36

81.2

1992

80

7

560

49

76.4

1993

75

8

600

64

71.6

1994

60

9

540

81

66.8

892

45

3615

285

400

Для того, чтобы найти параметры a и b, необходимо составить систему двух уравнений.

892=10a+45b

3615=45a+285b

Решая эти уравнения получаем a=110, b=-4.8

Yt=a+bx=110-4.8x

Замещая x в этом уравнении соответствующими числовыми величинами, определяющими порядковый номер изучаемых периодов, получаем выровненные величины - Y, те, которые были бы получены, если бы на популяцию действовали только длительно действующие факторы.

Параметр b обозначает снижение или увеличение теоретически ожидаемых величин в течение одного из периодов и называется коэффициентом регрессии. Наименование это дал Гальтон, изучавший корреляцию роста родителей и их потомства. Так как Гальтон выявил нисходящую тенденцию в изменении роста высоких родителей и их потомства (коэффициент b с отрицательным знаком), то назвал он его коэффициентом регрессии. Это наименование остается за коэффициентом b и тогда, когда он имеет положительное значение.

Прямолинейное выравнивание - сокращенный способ - нечетное количество периодов. В нашем примере, иллюстрировавшим применение метода наименьших квадратов, были использованы абсолютные числа. Гораздо более познавательное значение имеют производные статистические показатели - относительные величины, средние величины и т.п. Например, если вы изучаете действие каких-то веществ на организм, то на абсолютные величины количества, допустим умерших животных, оказывает влияние количество животных, подвергнутых воздействию. Поэтому, в таких случаях удобнее пользоваться относительными величинами, выраженными в процентах.

Давайте разберем применение сокращенного способа выравнивания динамических рядов. Этот способ применяется тогда, когда ряд имеет нечетное количество периодов. Особенность его в том, что за начальный год X=0 принимается не первый год, а центральный. Нумерация остальных годов идет в естественном порядке чисел 1, 2, 3 и т.д., но номера более ранних лет до центрального имеют отрицательный знак, а после него положительный. Вследствие этого упрощается система уравнений:

Y=Na

XY=bX2

отсюда параметры a и b принимают значения (см. по формуле), что освобождает от необходимости решать систему уравнений.

Имеются следующие данные о заболеваемости гриппом за 1986-1994г.

Год

Y

X

XY

X2

Yt

1986

4,7

-4

-18,8

16

8,22

1987

29,4

-3

-88,2

9

36,15

1988

61

-2

-122

4

64,08

1989

79,1

-1

-79,1

1

92,01

1990

152,1

0

0

0

119,94

1991

161,3

1

161,3

1

147,87

1992

166,5

2

333

4

175,81

1993

211,8

3

635,5

9

203,74

1994

213,6

4

854,4

16

231,68

1079,5

0

1676,1

60

1079,5

a=119.94 b=27.93

Прямолинейное выравнивание - сокращенный способ - четное число периодов. Приведенный способ наименьших квадратов при четном числе периодов встречает затруднение из-за отсутствия центрального периода, который можно было бы принять за начальный. В этом случае начальным моментом считают тот, который находится между двумя центральными, так как данные динамического ряда относятся к середине периода. Если мы имеем интервалы в годах, то для того, чтобы работать с целыми числами эти интервалы переводят в полугодовые.

Не всегда можно представить тенденцию развития явлений при помощи прямой, так как тенденция развития в ряде случаев криволинейна и прямая линия не подходит для ее характеристики. В таких случаях пользуются различными кривыми: параболами, гиперболами, экспоненциальными и т.д.

Парабола - одна из элементарных кривых. Параболой первой степени является прямая линия. Парабола второй степени имеет следующее уравнение: Yt=a+bx+cx2

а параболы третьей степени: Yt=a+bx+cx2+dx3.

Для решения этих уравнений надо найти значения a, b, c, d и т.д. Для этого надо решить соответствующую систему уравнений:

Y=Na+bX+cX2

XY=aX+bX2+cX3

X2Y=aX2+bX3+cX4

Техника решения подобных уравнений и построения графика принципиально ничем не отличается от разобранных ранее примеров. Аналогично можно применять сокращенные способы для четного количества периодов и нечетного количества периодов.

В случаях, когда количество интервалов велико можно прибегать к сглаживанию по трем, пяти, семи, девяти и т.д. точкам.

Например, сглаживание по 5 точкам выглядит так:

Yt=Xn-2+2Xn-1+3Xn+2Xn+1+Xn+2

по 9 точкам:

Yt=Xn-4+2Xn-3+3Xn-2+4Xn-1+5Xn+4Xn+1+3Xn+2+2Xn+3+Xn+4

Следует отметить, что данный метод можно применять не зная какие факторы оказывают длительное, а какие временное воздействие. Однако, можно заметить, что при таком способе сглаживания теряются начальные и конечные периоды.