- •Биометрическая обработка данных на основе компьютерной программы statistica
- •Предисловие
- •Раздел 1. Характеристика программы statistica
- •Организация системы statistica
- •1.2. Статистические методы программы statistica
- •Раздел 2. Параметрические критерии
- •2.1. Описательная статистика Методы описательной статистики (Descriptive statistics) и характеристика статистических совокупностей
- •2.2. Статистические оценки генеральных параметров Оценка ошибок репрезентативности
- •Оценка ошибок репрезентативности
- •Показатель точности оценок
- •Оценка доверительного интервала средней арифметической –
- •Оценка доверительного интервала дисперсии –
- •2.3. Проверка нормальности эмпирического распределения Функции нормального распределения и методы оценки нормальности эмпирического распределения
- •Проверка нормальности эмпирического распределения
- •2.4. Параметрические критерии сравнения средних
- •Раздел 3. Непараметрические критерии
- •3.1. Сравнение независимых выборок
- •Сравнение зависимых групп
- •3.3. Сравнение номинальных (категориальных) переменных
- •Раздел 4. Корреляционный анализ
- •4.1. Параметрические показатели связи
- •4.2. Непараметрические показатели связи
- •Методика расчета коэффициент ранговой корреляции Спирмена ( )
- •Методика расчета коэффициента корреляции Спирмена ( )
- •4.3. Оценка связи между номинальными величинами
- •Раздел 5. Дисперсионный анализ
- •5.1. Однофакторный дисперсионный анализ
- •5.2. Двухфакторный дисперсионный анализ
- •Раздел 6. Регрессионный анализ
- •Раздел 7. Кластерный анализ
- •Раздел 8. Дискриминатный анализ
- •Оглавление
- •625003, Г. Тюмень, Семакова,10
Раздел 7. Кластерный анализ
Задача кластерного анализа состоит в классификации объектов исследования. Этот метод позволяет наглядно представить сходство или различие биологических объектов, охарактеризованным по многим признакам.
Суть кластерного анализа состоит в:
определении «расстояний» между объектами по всей совокупности признаков;
группировании сходных объектов в кластеры (от анг. cluster – гроздь, скопление);
графическом изображении древа кластеризации.
В качестве меры расстояния выступают статистические показатели:
Евклидова метрика применяется, когда в кластерном анализе используются количественные признаки, измеренные в одних единицах;
квадрат Евклидова расстояния применяется при работе с признаками, измеренными в различных единицах или сильно различающихся по величине; манхэттенское расстояние применяется с целью уменьшения больших разностей; расстояние Чебышева применяется для сравнения объектов, различающихся по какой-либо одной координате; степенное расстояние Минковского применяется для увеличения или уменьшения веса разности по отдельным координатам; процент несогласия применяется при работе с номинальными признаками; 1- Pearson r (1 минус коэффициент корреляции Пирсона) применяется при проведении классификации в экономике и социологии (когда объекты нельзя представить как точки в k –мерном пространстве).
Для запуска метода Кластерный анализ (Cluster Analysis) в меню STATISTICA надо выбрать Multivfriate Exploratory Techniques (Многомерные исследовательские методы) и далее выбрать Cluster Analysis. Откроется стартовая панель модуля кластерный анализ. На вкладке Quick находится список методов кластерного анализа, реализованных в программе STATISTICA: Joining tree clustering (древовидная кластеризация); k-means clustering (метод k-средних) и Two-way joining (двухвходовая кластеризация).
Пример 1. Необходимо оценить сходство биотопов по численности мелких млекопитающих и разделить биотопы на группы.
В главной части стартовой панели нужно высветить k-means clustering и нажать ОК, на экране появится диалоговое k-means clustering. После выбора объектов для кластеризации в поле Number of claster (число кластеров) нужно определить число групп (классов), на которые мы хотим разделить биотопы. В поле Number of iteration (число повторений), задается максимальное число повторений при построении классов.
Вид |
Численность, экз. на 10 канавко-суток |
||
Сосняки |
Ельники |
Лиственное мелколесье |
|
Обыкновенная бурозубка |
3.9 |
7.2 |
6 |
Средняя бурозубка |
1.8 |
1.1 |
0.5 |
Малая бурозубка |
1.9 |
2.0 |
1.6 |
Равнозубая бурозубка |
0.01 |
0.2 |
0.1 |
Крошечная бурозубка |
0.04 |
0.06 |
0.4 |
Водяная кутора |
0.04 |
0.06 |
0.4 |
Лесная мышовка |
0.6 |
0.3 |
0.7 |
Лесной лемминг |
0.2 |
0 |
0.05 |
Мышь малютка |
0.04 |
0 |
0 |
Рыжая полевка |
1.5 |
0.8 |
0.8 |
Красная полевка |
0.06 |
0.6 |
0.02 |
Темная полевка |
0.2 |
0 |
0.7 |
Полевка-экономка |
0 |
0.2 |
0.2 |
Число кластеров два: в первый кластер входят сосняки; во второй: ельники и лиственное полесье. Среднее значение видов кластеров выбираются в Descriptive statistics for each cluster. На основе сравнения средних кластеров находится расстояние между кластерами. Евклидово расстояние между кластерами 1 и 2 составляет 0,83; квадрат евклидово расстояния равно 0,69.
Задание для самостоятельной работы. Результаты орнитологического учета, проведенного в природном парке «Кондинские озера» (ХМАО, Советский район) представлены в таблице. Необходимо оценить сходство биотопов по численности видов птиц (особей/км²) и разделить биотопы на группы.
Вид птиц |
Местообитания (сосняки – беломошники) |
||||
СбБ |
СбсП |
СбА |
СбюП |
Смв |
|
Пеночка-тенкьковка |
9,34 |
50,77 |
14,53 |
1,38 |
1,05 |
Славка-завирушка |
3,67 |
19,49 |
6,75 |
0,20 |
0,87 |
Зеленая пеночка |
5,98 |
30,06 |
13,05 |
12,16 |
20,56 |
Глухарь |
5,46 |
34,65 |
2,07 |
18,17 |
0,37 |
Черный стриж |
0,29 |
16,67 |
2,07 |
8,9 |
1,73 |
Пестрый дятел |
0,29 |
3,22 |
0,02 |
0,29 |
2,6 |
Лесной конек |
6,28 |
1,11 |
3,02 |
1,26 |
3,33 |
Обыкновенная сорока |
0,28 |
0,56 |
14,84 |
3,56 |
27,04 |
Серая ворона |
0,57 |
5,11 |
9,33 |
21,29 |
20,77 |
Обыкновенный клест |
2,22 |
0,15 |
4,65 |
30,77 |
0,74 |
Контрольные вопросы:
1. Объясните применение в биологии кластерного анализа. 2.Объясните разницу между дисперсионным, корреляционным, регрессионным и кластерным анализом. 3. Составьте план проведения кластерного анализа Ваших экспериментальных данных. 4. Докажите целесообразность проведения кластерного анализа при обработке Ваших экспериментальных данных.