Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Биометрическая обработка данных на основе компь...doc
Скачиваний:
31
Добавлен:
11.11.2019
Размер:
1.7 Mб
Скачать

Раздел 7. Кластерный анализ

Задача кластерного анализа состоит в классификации объектов исследования. Этот метод позволяет наглядно представить сходство или различие биологических объектов, охарактеризованным по многим признакам.

Суть кластерного анализа состоит в:

  • определении «расстояний» между объектами по всей совокупности признаков;

  • группировании сходных объектов в кластеры (от анг. cluster – гроздь, скопление);

  • графическом изображении древа кластеризации.

В качестве меры расстояния выступают статистические показатели:

Евклидова метрика применяется, когда в кластерном анализе используются количественные признаки, измеренные в одних единицах;

квадрат Евклидова расстояния применяется при работе с признаками, измеренными в различных единицах или сильно различающихся по величине; манхэттенское расстояние применяется с целью уменьшения больших разностей; расстояние Чебышева применяется для сравнения объектов, различающихся по какой-либо одной координате; степенное расстояние Минковского применяется для увеличения или уменьшения веса разности по отдельным координатам; процент несогласия применяется при работе с номинальными признаками; 1- Pearson r (1 минус коэффициент корреляции Пирсона) применяется при проведении классификации в экономике и социологии (когда объекты нельзя представить как точки в k –мерном пространстве).

Для запуска метода Кластерный анализ (Cluster Analysis) в меню STATISTICA надо выбрать Multivfriate Exploratory Techniques (Многомерные исследовательские методы) и далее выбрать Cluster Analysis. Откроется стартовая панель модуля кластерный анализ. На вкладке Quick находится список методов кластерного анализа, реализованных в программе STATISTICA: Joining tree clustering (древовидная кластеризация); k-means clustering (метод k-средних) и Two-way joining (двухвходовая кластеризация).

Пример 1. Необходимо оценить сходство биотопов по численности мелких млекопитающих и разделить биотопы на группы.

В главной части стартовой панели нужно высветить k-means clustering и нажать ОК, на экране появится диалоговое k-means clustering. После выбора объектов для кластеризации в поле Number of claster (число кластеров) нужно определить число групп (классов), на которые мы хотим разделить биотопы. В поле Number of iteration (число повторений), задается максимальное число повторений при построении классов.

Вид

Численность, экз. на 10 канавко-суток

Сосняки

Ельники

Лиственное мелколесье

Обыкновенная бурозубка

3.9

7.2

6

Средняя бурозубка

1.8

1.1

0.5

Малая бурозубка

1.9

2.0

1.6

Равнозубая бурозубка

0.01

0.2

0.1

Крошечная бурозубка

0.04

0.06

0.4

Водяная кутора

0.04

0.06

0.4

Лесная мышовка

0.6

0.3

0.7

Лесной лемминг

0.2

0

0.05

Мышь малютка

0.04

0

0

Рыжая полевка

1.5

0.8

0.8

Красная полевка

0.06

0.6

0.02

Темная полевка

0.2

0

0.7

Полевка-экономка

0

0.2

0.2

Число кластеров два: в первый кластер входят сосняки; во второй: ельники и лиственное полесье. Среднее значение видов кластеров выбираются в Descriptive statistics for each cluster. На основе сравнения средних кластеров находится расстояние между кластерами. Евклидово расстояние между кластерами 1 и 2 составляет 0,83; квадрат евклидово расстояния равно 0,69.

Задание для самостоятельной работы. Результаты орнитологического учета, проведенного в природном парке «Кондинские озера» (ХМАО, Советский район) представлены в таблице. Необходимо оценить сходство биотопов по численности видов птиц (особей/км²) и разделить биотопы на группы.

Вид птиц

Местообитания (сосняки – беломошники)

СбБ

СбсП

СбА

СбюП

Смв

Пеночка-тенкьковка

9,34

50,77

14,53

1,38

1,05

Славка-завирушка

3,67

19,49

6,75

0,20

0,87

Зеленая пеночка

5,98

30,06

13,05

12,16

20,56

Глухарь

5,46

34,65

2,07

18,17

0,37

Черный стриж

0,29

16,67

2,07

8,9

1,73

Пестрый дятел

0,29

3,22

0,02

0,29

2,6

Лесной конек

6,28

1,11

3,02

1,26

3,33

Обыкновенная сорока

0,28

0,56

14,84

3,56

27,04

Серая ворона

0,57

5,11

9,33

21,29

20,77

Обыкновенный клест

2,22

0,15

4,65

30,77

0,74

Контрольные вопросы:

1. Объясните применение в биологии кластерного анализа. 2.Объясните разницу между дисперсионным, корреляционным, регрессионным и кластерным анализом. 3. Составьте план проведения кластерного анализа Ваших экспериментальных данных. 4. Докажите целесообразность проведения кластерного анализа при обработке Ваших экспериментальных данных.