Добавил:
chemist5734494@gmail.com Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Биометрия методичка

.pdf
Скачиваний:
10
Добавлен:
29.06.2024
Размер:
2.04 Mб
Скачать

Рис. 10.8 – Диалоговое окно инструмента «Регрессия»

Выполняем команды Данные / Анализ данных / Регрессия.

Вводим диапазоны изменения Y и Х, обводя их курсором, выставляем флажки в окошках «Метки» и «Уровень надежности 95 %». Выделяем ячейку выходного интервала (например, F8) и нажимаем ОК. Результаты представлены в итоговой таблице на Рис. 10.9. Из этой таблицы видно, что значения коэффициентов линейной регрессии a0 и a1, а также коэффициента детерминации R2 совпадают со значениями, приведенными на Рис. 10.3. Значимость всего уравнения регрессии р, согласно F-критерию, не превышает 1,93272 10–6. Значимость коэффициента линейной регрессии a0 p < 0,052328, а это значит, что этот коэффициент не является значимым по t-критерию Стьюдента. Значимость коэффициента линейной регрессии a1 p < 1,93272 10–6, значит, этот коэффициент является значимым по t-критерию Стьюдента.

Границы доверительных интервалов для коэффициентов регрессии на уровне вероятности 95 % приведены в двух последних столбиках на Рис. 10.9.

61

Рис. 10.9 – Анализ уравнения простой линейной регрессии

Таким же образом определяют статистическую значимость других типов уравнений нелинейной регрессии в целом, а также значимость их коэффициентов.

Задания Задание 1. Изучали зависимость среднего значения веге-

тативной массы галеги восточной Y (кг/м2) от возраста растений Х (недели) (Таблица 10.2).

Таблица 10.2 – Зависимость среднего значения вегетативной массы галеги восточной Y (кг/м2) от возраста растений Х (недели)

Возраст, X

1 неделя

2 неделя

3 неделя

4 неделя

6 неделя

8 неделя

10 неделя

12 неделя

МассаY, кг/м2

2,50

11,50

17,30

21,50

24,10

25,70

27,30

28,60

Задание 2. Изучали зависимость среднего значения массы речного окуня Y (г) от возраста Х (лет) (Таблица 10.3).

Таблица 10.3 – Зависимость среднего значения массы речного окуня Y (г) от возраста Х (лет) (недели)

Возраст Х, лет

1

2

3

4

5

6

7

8

9

10

Масса Y, г

6

46

101

165

250

330

420

500

600

685

62

Лабораторная работа № 11 Элементы многомерной статистики

Кластерный анализ – это современный метод классификационного многофакторного анализа. Его основное назначение

– разбиение по определенным признакам множества исследуемых объектов на однородные по своей структуре группы или кластеры. Входные данные могут быть значительного объема, при этом существенно большим может быть как количество объектов, так и количество признаков, по которым характеризуются эти объекты.

Существует много методов кластеризации. Перечислим только некоторые из них:

метод ближнего соседа;

метод дальнего соседа;

невзвешенное попарное среднее;

взвешенное попарное среднее;

метод Варда.

Вкачестве меры различия объектов 1 и 2 из выборки объемом n будем рассматривать наиболее распространенную –

евклидово расстояние между ними (формула 11.1):

 

 

 

(11.1)

 

– значение і-го признака

где X1i и X2i

,(или координаты

 

в n-мерном евклидовом

пространстве) для

1-го и 2-го объектов соответственно.

Но признаки чаще всего имеют различную размерность и разную шкалу значений (например, масса в килограммах, высота в сантиметрах, надой в литрах и т. д.). Поэтому сначала их необходимо нормализировать (или стандартизировать), т. е. привести к некоторому единому масштабу. Наиболее удобный метод нормализации признаков – это замена их зна-

чений на нормированные отклонения по формуле (11.2):

Xi

 

 

 

,

(11.2)

 

 

63

где – среднее выборочное значение і-го признака; σ – среднееквадратическое(или стандартное) отклонение.

Теперь евклидово расстояние между объектами имеет вид

(формула 11.3):

(11.3)

Далее для всех пар элементов выборки строится матрица расстояний D размера n n , которая является основой различных методов кластеризации. Мы рассмотрим наиболее простые из них – алгомеративно-иерархические, главная идея которых состоит в последовательном объединении объектов в кластеры – сначала наиболее близких, а потом все более отдаленных один от другого. Разница между методами кластеризации состоит в выборе алгоритма объединения. Рассмотрим некоторые наиболее простые методы.

Пример. Для проведения неинвазивной диагностики отсутствия или наличия патологии гонад у коров чёрно-пёстрой породы применяют клинический анализ крови, включая следующие показатели гомеостаза крови животных: общий белок (m1), альбумин (m2) и глобулин (m3). После забоя с помощью гистологических исследований было установлено наличие патологии гонад у некоторых животных, а у других – ее отсутствие. Из этих групп выделили методом аналогов по 10 голов примерно одного возраста, для которых были предварительно измерены показатели гомеостаза крови. Результаты приведены в Таблице 11.1.

Таблица 11.1 – Значения показателей гомеостаза крови

№ животного

Общий белок, г/100 мл

Альбумин, г/100 мл

Глобулин, г/100 мл

m1

m2

m3

 

1

8,2

2,8

6,2

2

9,2

3,2

5,6

3

7,8

2,3

6,4

4

8,8

3,3

5,4

5

7,2

2,6

6,0

6

9,2

3,2

5,2

7

7,3

2,5

6,2

8

8,7

3,2

5,6

9

7,2

2,4

6,3

10

8,5

3,3

5,4

64

Необходимо разбить эту выборку на два кластера – «норма» и «патология» – по трем признакам – показателям гомеостаза их крови: общий белок (m1), альбумин (m2) и глобулин (m3).

Решение. Открываем новую книгу (или новый рабочий лист) в Ms Excel и копируем Таблицу 11.1, как это показано на Рис. 11.1.

Рис. 11.1 – Нормализация признаков

ипостроение матрицы расстояний

Спомощью команд Данные / Анализ данных / Описа-

тельная статистика делаем первичную обработку данных по столбцам (признакам). Необходимая часть результатов анализа приведена на Рис. 11.1 внизу. Нас интересуют средние значения признаков (1-я строка) и стандартные отклонения (5-я строка). Правее от таблицы данных проводим нормализацию признаков m1 – m3.

Для этого в ячейке F4 программируем = (В4 – 8,21) / 0,79 и нажимаем Enter. После этого в этой ячейке появляется число – 0,01. Протягивая крестик в правом нижнем углу вдоль ячеек

65

F4 : F13, проводим их автозаполнение и получаем нормализованные данные. Аналогично в ячейке G5 программируем формулу = (C4 – 2,88) / 0,4 и нажимаем Enter. В этой ячейке появляется значение –0,20, затем автозаполняем ячейки G4 : G13 и получаем нормализованные данные. В ячейке Н4 программируем = (D4 – 5,83) / 0,44. Затем автозаполняем ячейки Н4 : Н13 и завершаем заполнение таблицы нормализованных признаков. В единицах стандартного отклонения и будет определяться расстояние между объектами и кластерами. Теперь приступаем к построению матрицы расстояний. Для этого в ячейке К4 программируем евклидово расстояние между объектами 1 и 2: = КОРЕНЬ ((F4 – F5)^2 + (G4 – G5)^2 + (H4 – H5)^2). Нажимаем

Enter иполучаемзначение 2,11.

Аналогично находим все значения расстояний dik (i, k = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10), которые приведены на Рис. 11.1.

Можно заполнить лишь половину матрицы выше диагонали, поскольку она является симметричной (dik = dki). Теперь перейдем непосредственно к рассмотрению наиболее простых и наглядных методов кластеризации.

1. Метод ближнего соседа (Single Linkage)

В алгоритме этого метода расстояния между кластерами определяются как наименьшее расстояние между всеми возможными парами элементов из этих кластеров («ближайшими соседями»). Реализуется он следующим образом. Cкопируем матрицу расстояний на отдельный лист (Таблица 11.2).

Таблица 11.2 – Матрица расстояний 10×10

№ п/п A

B

C

D

E

F

G

H

I

J

K

1

№ 1

2

3

4

5

6

7

8

9

10

2

1

0,00

2,11

1,42

2,33

1,43

2,79

1,36

1,81

1,63

2,24

3

2

 

0

3,39

0,72

3,08

0,91

3,27

0,63

3,60

1,03

4

3

 

 

0

3,61

1,40

3,95

0,93

3,11

0,83

3,49

5

4

 

 

 

0

3,00

0,72

3,30

0,53

3,65

0,38

6

5

 

 

 

 

0

3,46

0,53

2,58

0,85

2,76

7

6

 

 

 

 

 

0

3,74

1,11

4,08

1,03

8

7

 

 

 

 

 

 

0

2,84

0,36

3,10

9

8

 

 

 

 

 

 

 

0

3,18

0,58

10

9

 

 

 

 

 

 

 

 

0

3,46

11

10

 

 

 

 

 

 

 

 

 

0

66

Наименьшее расстояние (0,36) существует между объектами 7 и 9 (выделено в Таблице 11.2 жирным шрифтом). Поэтому в дальнейшем объединяем их в один кластер [7, 9]. Для этого название строки № 7 заменяем в ячейке А8 на строку [7, 9], а название столбца № 7 заменяем в ячейке Н1 на столбец [7, 9] (Таблица 11.3). Далее указываем в ячейках I7 : К7 минимальные значения расстояний от объектов 7 и 9 до других объектов по данным Таблицы 11.2, после чего строку

9 и столбец № 9 удаляем.

Врезультате имеем матрицу расстояний 9 9, показанную в Таблице 11.3.

Таблица 11.3 – Матрица расстояний 9 9

№ п/п

A

B

C

D

E

F

G

H

I

K

1

1

2

3

4

5

6

7,9

8

10

2

1

0,00

2,11

1,42

2,33

1,43

2,79

1,36

1,81

2,24

3

2

 

0

3,39

0,72

3,08

0,91

3,27

0,63

1,03

4

3

 

 

0

3,61

1,40

3,95

0,93

3,11

3,49

5

4

 

 

 

0

3,00

0,72

3,30

0,53

0,38

6

5

 

 

 

 

0

3,46

0,53

2,58

2,76

7

6

 

 

 

 

 

0

3,74

1,11

1,03

8

7,9

 

 

 

 

 

 

0

2,49

3,10

9

8

 

 

 

 

 

 

 

0

0,58

11

10

 

 

 

 

 

 

 

 

0

Из этой таблицы видно, что наименьшее расстояние (0,38) имеет место между объектами 4 и 10 (выделено в Таблице11.3 жирным шрифтом). Поэтому в дальнейшем объединяем их в один кластер [4, 10]. заменяя строку 4 на строку [4, 10]. Далее указываем в ячейках А5 : К5 минимальные значения расстояний от объектов4 и10 до другихобъектовпо даннымТаблицы11.3, после чегострокуистолбец№10 удаляем.

Получаем матрицурасстояний8 8 (Таблица11.4).

Таблица 11.4 – Матрица расстояний 8

8

 

 

 

 

 

 

 

 

 

 

 

 

 

№ п/п

A

B

C

D

E

F

G

H

I

1

1

2

3

4,10

5

6

7,9

8

2

1

0,00

2,11

1,42

2,33

1,43

2,79

1,36

1,81

3

2

 

0

3,39

0,72

3,08

0,91

3,27

0,63

4

3

 

 

0

3,61

1,40

3,95

0,93

3,11

5

4, 10

 

 

 

0

3,00

0,37

3,30

0,18

6

5

 

 

 

 

0

3,46

0,53

2,58

7

6

 

 

 

 

 

0

3,74

1,11

8

7, 9

 

 

 

 

 

 

0

2,49

9

8

 

 

 

 

 

 

 

0

67

Эта матрица показывает, что наименьшее расстояние (0,18) существует между кластером [4, 10] и объектом 8. Поэтому объединяем их в один кластер [4, 8, 10]. Заменяем строку истолбец [4, 10] на [4, 8, 10]. Все расстояния между кластером [4, 10] иобъектом 8 до других объектов заменяем на наименьшие поданным Таблицы 11.4, после чего строку и столбец № 8 удаляем.

Получаем матрицурасстояний7 7 (Таблица11.5).

Таблица 11.5 – Матрица расстояний 7

7

 

 

 

 

 

 

 

 

 

 

 

 

 

№ п/п

A

B

C

D

 

E

F

G

H

1

1

2

3

 

4, 8, 10

5

6

7, 9

2

1

0,00

2,11

1,42

 

2,33

1,43

2,79

1,36

3

2

 

0

3,39

 

0,72

3,08

0,91

3,27

4

3

 

 

0

 

3,61

1,40

3,95

0,93

5

4, 8, 10

 

 

 

 

0

3,00

0,20

3,30

6

5

 

 

 

 

 

0

3,46

0,53

7

6

 

 

 

 

 

 

0

3,74

8

7, 9

 

 

 

 

 

 

 

0

Эта матрица показывает, что наименьшее расстояние (0,20) существует между кластером [4, 8, 10] и объектом 6. Поэтому объединяем их в один кластер [4, 6, 8, 10]. Заменяем строку и столбец [4, 8, 10] на [4, 6, 8, 10]. Все расстояния между кластером [4, 8, 10] и объектом 6 до других объектов заменяем на наименьшие по данным Таблицы 11.5, после чего строку и столбец № 6 удаляем.

Получаем матрицу расстояний 6 6 (Таблица 11.6).

Таблица 11.6 – Матрица расстояний 6

6

 

 

 

 

 

 

 

 

 

 

 

 

№ п/п

A

B

C

D

 

E

F

H

1

1

2

3

 

4, 6, 8, 10

5

7, 9

2

1

0,00

2,11

1,42

 

2,33

1,43

1,36

3

2

 

0

3,39

 

0,72

3,08

3,27

4

3

 

 

0

 

3,61

1,40

0,93

5

4, 6, 8, 10

 

 

 

 

0

3,00

3,30

6

5

 

 

 

 

 

0

0,34

8

7, 9

 

 

 

 

 

 

0

Эта матрица показывает, что наименьшее расстояние (0,34) существует между кластером [7, 9] и объектом 5. Поэтому объединяем их в один кластер [5, 7, 9]. Заменяем строку и стол-

68

бец [7, 9] на [5, 7, 9]. Все расстояния между кластером [7, 9] иобъектом 5 до других объектов заменяем на наименьшие по данным Таблицы 11.6, после чего строку и столбец № 5 удаляем.

Получаем матрицу расстояний 5 5 (Таблица 11.7).

Таблица 11.7 – Матрица расстояний 5

5

 

 

 

 

 

 

 

 

 

№ п/п

A

B

C

D

E

H

1

1

2

3

4, 6, 8, 10

5, 7, 9

2

1

0,00

2,11

1,42

2,33

1,36

3

2

 

0

3,39

0,72

3,27

4

3

 

 

0

3,61

0,93

5

4, 6, 8, 10

 

 

 

0

3,30

8

5, 7, 9

 

 

 

 

0

Эта матрица показывает, что наименьшее расстояние (0,72) существует между кластером [4, 6, 8, 10] и объектом 2. Поэтому объединяем их в один кластер [2, 4, 6, 8, 10]. Заменяем строку и столбец [4, 6, 8, 10] на [2, 4, 6, 8, 10]. Все расстояния между кластером [4, 6, 8, 10] и объектом 2 до других объектов заменяем на наименьшие по данным Таблицы 11.7, после чего строку и столбец № 2 удаляем.

Получаем матрицу расстояний 4 4 (Таблица 11.8).

Таблица 11.8 – Матрица расстояний 4

4

 

 

 

 

 

 

 

 

 

№ п/п

A

B

 

D

E

H

1

1

 

3

2, 4, 6, 8, 10

5, 7, 9

2

1

0,00

 

1,42

2,33

1,36

4

3

 

 

0

3,61

0,93

5

2, 4, 6, 8, 10

 

 

 

0

3,30

8

5, 7, 9

 

 

 

 

0

Эта матрица показывает, что наименьшее расстояние (0,93) существует между кластером [5, 7, 9] и объектом 3. Поэтому объединяем их в один кластер [3, 5, 7, 9]. Заменяем строку и столбец [5, 7, 9] на [3, 5, 7, 9]. Все расстояния между кластером [5, 7, 9] и объектом 3 до других объектов заменяем на наименьшие по данным Таблицы 11.8, после чего строку и столбец № 3 удаляем.

Получаем матрицу расстояний 3 3 (Таблица 11.9).

69

Таблица 11.9 – Матрица расстояний 3

3

 

 

 

 

 

 

 

№ п/п

A

B

 

E

H

1

1

 

2, 4, 6, 8, 10

3,5,7,9

2

1

0,00

 

2,33

1,36

5

2, 4, 6, 8, 10

 

 

0

3,30

8

3, 5, 7, 9

 

 

 

0

Эта матрица показывает, что наименьшее расстояние (1,36) существует между кластером [3, 5, 7, 9] и объектом 1. Поэтому объединяем их в один кластер [1, 3, 5, 7, 9]. Заменяем строку и столбец [3, 5, 7, 9] на [1, 3, 5, 7, 9]. После чего строку и столбец № 1 удаляем.

Получаем матрицу расстояний 2 2 (Таблица 11.10).

Таблица 11.10 – Матрица расстояний 2 2

№ п/п

A

E

H

1

2, 4, 6, 8, 10

1, 3, 5, 7, 9

5

2, 4, 6, 8, 10

0

3,30

8

1, 3, 5, 7, 9

 

0

Окончательно имеем два кластера [2, 4, 6, 8, 10] («норма») и [1, 3, 5, 7, 9] («патология»), расстояние меду которыми относительно велико и составляет 3,30 единицы, что видно из

Таблицы 11.10.

Проведенный пошаговый процесс кластеризации по методу ближнего соседа можно представить в виде следующей таблицы кластеризации (Таблица 11.11), которая построена по данным Таблиц 11.2–11.10.

Таблица 11.11 – Схема кластеризации по методу «ближнего соседа»

№ шага

Расстояние

Кластеры

1

0,36

[7, 9]

2

0,38

[4, 10]

3

0,18

[4, 8, 10]

4

0,20

[4, 6, 8, 10]

5

0,34

[5, 7, 9]

6

0,72

[2, 4, 6, 8, 10]

7

0,93

[3, 5, 7, 9]

8

1,36

[1, 3, 5, 7, 9]

9

3,30

2, 4, 6, 8, 10] и [1, 3, 5, 7, 9]

70

Соседние файлы в предмете Биологическая статистика
  • #
  • #
    29.06.202452.9 Кб3БИОМЕТРИЯ.xlsx
  • #
    29.06.202428.24 Кб3Голуб С.В. 23Х-1 1 вариант.xlsx
  • #
    29.06.20241.53 Mб0ответы.docx
  • #
    29.06.202424.18 Кб1Петрович В.А 21БХ-1 2 вариант.xlsx
  • #
    29.06.202426.32 Кб1Петрович В.А 21БХ-1 3 вариант.xlsx