Корреляционный анализ
Критерий Спирмена
Нулевая гипотеза: r(коэффициент корреляции) не отличается от 0.
data: x and y
S = 132.94, p-value = 2.781e-05
alternative hypothesis: true rho is not equal to 0
sample estimates:
r=0.8370891
Статистический вывод: значимость p =2.781e-05< 0.05, коэффициент отличается от 0.
Интерпретация: корреляция положительная, сильная. Температура тела ящерицы увеличивается с ростом температуры воздуха
Критерий Пирсона
Нулевая гипотеза: r(коэффициент корреляции) не отличается от 0.
data: x and y
t = 5.498, df = 15, p-value = 6.129e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5549330 0.9319638
sample estimates:
r =0.8175233
Статистический вывод: значимость p =6.129e-05< 0.05, коэффициент отличается от 0.
Интерпретация: корреляция положительная, сильная. Температура тела ящерицы увеличивается с ростом температуры воздуха.
Критерий Кендалла
Нулевая гипотеза: r(коэффициент корреляции) не отличается от 0.
data: x and y
z = 3.7513, p-value = 0.0001759
alternative hypothesis: true tau is not equal to 0
sample estimates:
r=0.7120912
Статистический вывод: значимость p = 0.0001759 < 0.05, коэффициент отличается от 0.
Интерпретация: корреляция положительная, сильная. Температура тела ящерицы увеличивается с ростом температуры воздуха.
Регрессионный анализ
линейная модель y=ax+b
Нулевая гипотеза:
1) Отличия дисперсий не значимы (факториальная дисперсия не больше случайной).
2)
Коэффициенты регрессии не отличаются
от 0.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -9.3986 6.5315 -1.439 0.171
x 1.0794 0.1963 5.498 6.13e-05 ***
Residual standard error: 2.007 on 15 degrees of freedom
Multiple R-squared: 0.6683,
Adjusted R-squared: 0.6462
F-statistic: 30.23 on 1 and 15 DF,
p-value: 6.129e-05
Статистический вывод: Поскольку критерий Фишера F(30.23)>Fтабл.(3,84) при уровне значимости p< 6.129e-05, значит, отличие дисперсий значимо и модель описывается уравнением вида y=ax+b при R2 =0.6683(коэффициент детерминации). Следовательно, можно интерпретировать коэф-ты: Значимость коэффициента а p = 6.13e-05 < 0.05, значит, коэффициент отличается от 0. Значимость коэффициента b p = 0.171 > 0.05,значит коэффициент не отличается от 0 , он незначим и его можно исключить из модели.
Интерпретация: Температура тела ящерицы зависит от температуры воздуха и описывается уравнением вида y=1.0794x-9.3986 при R2 = 0.6683 (коэффициент детерминации).
линейная модель y=ax
Нулевая гипотеза:
Отличия дисперсий не значимы (факториальная дисперсия не больше случайной).
Коэффициент а не отличается от 0.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
x 0.79767 0.01511 52.79 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.073 on 16 degrees of freedom
Multiple R-squared: 0.9943, Adjusted R-squared: 0.9939
F-statistic: 2787 on 1 and 16 DF, p-value:<2.2e-16
Статистический вывод: Поскольку критерий Фишера F(2787)>Fтабл.(3,84) при уровне значимости p< 2.2e-16, значит, отличие дисперсий значимо и модель описывается уравнением вида y=ax при R2 =0.9943 (коэффициент детерминации). Следовательно, можно интерпретировать коэф-ты:
а=0.79767 при р< 2.2e-16,значит, коэф-т достоверно отличается от 0.
Интерпретация: температура тела ящерицы зависит от температуры воздуха как фактора и увеличивается на 0.79767 градусов с увеличением температуры воздуха на 1 градус.
Модель y=b*x^a
Нулевая гипотеза:
1) Коэффициент а не отличается от 0.
Nonlinear regression model
model: y ~ a1 * x^a2
Parameters:
Estimate Std. Error t value Pr(>|t|)
a1 0.2730 0.2422 1.127 0.277362
a2 1.3054 0.2524 5.171 0.000114 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.037 on 15 degrees of freedom
Number of iterations to convergence: 6
Achieved convergence tolerance: 4.794e-06
(R2<-smod/stot)
[1] 0.6582432
Статистический вывод: Коэф-ты:
a1=0.2730 при р(0.277362)>0.05,значит, коэф-т не значим и уравнение не имеет смысла.
a2=1.3054 при р(0.000114)<0.05
Полиномиальная регрессия y=ax^2+bx+c
Активность лёта бабочек(num) при разной температуре(t):
t |
num |
12 |
7 |
13 |
12 |
15 |
20 |
16 |
26 |
16 |
25 |
17 |
29 |
17 |
32 |
17 |
35 |
18 |
37 |
19 |
40 |
20 |
52 |
21 |
43 |
24 |
30 |
25 |
24 |
25 |
27 |
27 |
15 |
28 |
10 |
30 |
|
Нулевая гипотеза: 1) Коэффициент a1, а2, а3 не отличаются от 0.
Formula: y ~ a[1] + a[2] * x + a[3] * x^2
y=-150+18.2*x-0.44*x^2
Parameters:
Estimate Std. Error t value Pr(>|t|)
a1 -150.33921 22.89820 -6.566 8.95e-06 ***
a2 18.27165 2.27734 8.023 8.31e-07 ***
a3 -0.44242 0.05385 -8.215 6.20e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.656 on 15 degrees of freedom
Number of iterations to convergence: 1
Achieved convergence tolerance: 7.666e-08
Статистический вывод и интерпретация:
модель описывается уравнением вида y=ax^2+bx+c. Влияние параметра х значимо на параметр у, поскольку коэффициент детерминации ≈ 0.82.
Следовательно, можно интерпретировать коэф-ты:
a1= -150.33921 при р(6.566 8.95e-06)<0.05, значит, коэф-т достоверно отличается от 0.
a2 = 18.27165 при р(8.023 8.31e-07)<0.05,значит, коэф-т достоверно отличается от 0.
a3= -0.44242 при р(-8.215 6.20e-07)<0.05,значит, коэф-т достоверно отличается от 0.
Множественная регрессия
Анализ зависимости температуры среды в Карелии (май) (temp, град. С) от уровня солнечной радиации (rad, кал/кв.см*мин.) и времени суток (time, час).
temp |
rad |
time |
13 |
0,12 |
6 |
13 |
0,16 |
6,5 |
16 |
0,32 |
7 |
16 |
0,4 |
7,5 |
17 |
0,52 |
8 |
17 |
0,62 |
8,5 |
17 |
0,76 |
9 |
17 |
0,8 |
9,5 |
18 |
0,88 |
10 |
20 |
0,96 |
10,5 |
21 |
1,18 |
11 |
22,5 |
1,2 |
11,5 |
23 |
1,3 |
12 |
23 |
1,3 |
12,5 |
23 |
1,48 |
13 |
24 |
1,56 |
13,5 |
24 |
1,56 |
14 |
24 |
1,6 |
14,5 |
25 |
1,5 |
15 |
25 |
1,4 |
15,5 |
25 |
1,16 |
16 |
24 |
1,08 |
16,5 |
24 |
1,06 |
17 |
24 |
1 |
17,5 |
22 |
0,9 |
18 |
22 |
0,7 |
18,5 |
22 |
0,7 |
19 |
19 |
0,56 |
19,5 |
19 |
0,44 |
20 |
18 |
0,4 |
20,5 |
18 |
0,3 |
21 |
17 |
0,2 |
21,5 |
Нулевая гипотеза: 1) Отличия дисперсий не значимы (факториальная дисперсия не больше случайной).
2) Различия между средними арифметическими достоверно.
Call:
lm(formula = temp ~ rad + time, data = multi)
Residuals:
Min 1Q Median 3Q Max
-1.55235 -1.01620 0.06632 0.74240 2.04004
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.28589 0.69130 14.879 4.14e-15 ***
rad 6.66278 0.42823 15.559 1.30e-15 ***
time 0.30908 0.04156 7.437 3.39e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.083 on 29 degrees of freedom
Multiple R-squared: 0.9152, Adjusted R-squared: 0.9094
F-statistic: 156.5 on 2 and 29 DF, p-value: 2.882e-16
Статистический вывод:
Поскольку критерий Фишера F(156.5)>Fтабл.(3,84) при уровне значимости p=2.882e-16, значит, модель описывает данные при R2 =0.9152 (коэффициент детерминации). Следовательно, можно интерпретировать коэф-ты: значимость обоих параметров уравнения, p<0.05.
Интерпретация: Время суток и солнечная радиация значимо влияют на температуру воздуха в Карелии.
Задание 4: Кластерный анализ
Видовой состав мелких млекопитающих в 7 типах биотопов: лишайниковых сосняках (pl), сосняках-зеленомошниках (pm), ельниках (s), спелых лиственных и смешанных лесах (mx), лиственном мелколесье (le), молодых зарастающих вырубках (cu) и по границе сеяного луга и ольшаника (me). Выборка:
|
sar |
sca |
smi |
sis |
sms |
nfo |
sbe |
msh |
aag |
mmi |
Cgl |
cru |
mag |
moe |
pl |
1 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
1 |
1 |
0 |
0 |
pm |
1 |
1 |
1 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
1 |
1 |
1 |
0 |
s |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
0 |
1 |
1 |
1 |
1 |
1 |
0 |
mx |
1 |
1 |
1 |
1 |
0 |
1 |
1 |
1 |
1 |
0 |
1 |
1 |
1 |
1 |
le |
1 |
1 |
1 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
1 |
1 |
1 |
1 |
cu |
1 |
0 |
1 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
1 |
0 |
1 |
0 |
me |
1 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
1 |
1 |
1 |
0 |
1 |
1 |
Результаты
и дендрограмма по методу ближайшего
соседа:
dsb=designdist(sb, method = "1-((2*J)/(A+B))")
> print(round(dsb,3))
pl pm s mx le cu
pm 0.273
s 0.500 0.263
mx 0.500 0.263 0.167
le 0.333 0.067 0.300 0.200
cu 0.333 0.167 0.412 0.412 0.231
me 0.636 0.429 0.368 0.368 0.333 0.333
Интерпретация: Наиболее богатое видоразнообразие мелких млекопитающих представлено в s и mx. Видовое разнообразие в pm, cu и le беднее. Самое обособленное положение занимает me.
Компонентный анализ
Морфологические
характеристики самцов(m)
и самок (f) обыкновенной
гадюки (S – пол, W – масса тела, LT – длина
тела , LC – длина хвоста).
Выборка:
N |
W |
Lt |
Lc |
m1 |
40 |
45 |
77 |
m2 |
43 |
46 |
84 |
m3 |
45 |
47 |
81 |
m4 |
48 |
45 |
76 |
m5 |
53 |
47 |
80 |
m6 |
65 |
50 |
78 |
m7 |
68 |
53 |
90 |
m8 |
70 |
51 |
87 |
f1 |
60 |
50 |
62 |
f2 |
61 |
55 |
65 |
f3 |
68 |
49 |
65 |
f4 |
77 |
51 |
66 |
f5 |
82 |
52 |
64 |
f6 |
82 |
50.5 |
64 |
f7 |
90 |
53 |
|
f8 |
100 |
51 |
62 |
f9 |
112 |
57 |
70 |
Результаты:
eigen() decomposition
$values
[1] 2.0996704 0.7112657 0.1890640
$vectors
[,1] [,2] [,3]
[1,] -0.6437750 0.1912102 0.7409402
[2,] -0.6038379 0.4678275 -0.6453815
[3,] 0.4700357 0.8628882 0.1857157
Call:
princomp(x = nv)
Standard deviations:
Comp.1 Comp.2 Comp.3
1.4057597 0.8181849 0.4218324
3 variables and 17 observations. Значения главных компонент.
head(nv.pc <- predict(nv.a))
Comp.1 Comp.2 Comp.3
[1,] -2.0271944 -0.59621987 0.023622462
[2,] -2.1077996 0.21952132 0.082464397
[3,] -1.7146682 0.09798754 -0.094868614
[4,] -1.7231162 -0.61370252 0.295454079
[5,] -1.4105899 0.08050489 0.176963003
[6,] -0.3948441 0.42188462 0.003604987
> head(nv[1:nrow(v),]%*%nv.e$vectors)
[,1] [,2] [,3]
[1,] 2.0271944 -0.59621987 0.023622462
[2,] 2.1077996 0.21952132 0.082464397
[3,] 1.7146682 0.09798754 -0.094868614
[4,] 1.7231162 -0.61370252 0.295454079
[5,] 1.4105899 0.08050489 0.176963003
[6,] 0.3948441 0.42188462 0.003604987
Интерпретация: Первая компонента отражает обратную зависимость (рост размеров при уменьшении хвоста) между общими размерами тела и массой, а так же длиной тела гадюки и длиной хвоста, т.к. это четко характеризует половой диморфизм: у самцов хвост длиннее для обслуживания копуляции. Векторы направлены вдоль оси первой компоненты вправо, которым отчетливо противостоит длина хвоста (вектор направлен влево). Вторая компонента создается за счет переменной «длина хвоста» (0.863), а также «длина тела» и отражает общие размеры животного, поскольку оба вектора LT и LC направлены вдоль оси второй компоненты вверх, причем в большей степени, чем вектор массы тела. Выделенный на диаграмме седьмой самец (m7(7) = 2.07) имеет максимальную длину тела и хвоста, а четвертый самец минимальное значении по второй компоненте (m4 = –0.77) – самый маленький в выборке.

9
68