
- •Історична довідка
- •1. Основні терміни методики наукових досліджень
- •1.1. Основні символи, що використовуються в методиці
- •2. Методи наукових досліджень
- •2.1. Класифікація методів досліджень
- •2.2. Спеціальні методи досліджень
- •2.3. Системний підхід до вирішення завдань науки
- •3. Елементи методики і їх вплив на точність польового досліду
- •3.2. Дослідна ділянка
- •3.3. Форма ділянок та їх орієнтація на місцевості
- •3.4. Повторність і повторення в досліді
- •3.5. Методи розміщення варіантів та повторень на площі
- •4. Класифікація польових дослідів
- •4.1. Загальна класифікація польових дослідів
- •4.2. Класифікація дослідів за вирішенням конкретних завдань
- •4.3 Вимоги до польового досліду
- •5. Планування наукових досліджень
- •5.1. Програма досліджень
- •5.2. Етапи планування дослідження
- •6. Особливості досліджень зернобобових культур
- •7. Особливості досліджень буряків цукрових
- •8. Особливості дослідження льону-довгунця
- •9. Особливості досліджень картоплі
- •10. Особливості досліджень сумісних посівів сільськогосподарських культур
- •11. Діагностування кислотноосновного стану та поживного режиму ґрунтів
- •12. Енергетична оцінка вирощування сільськогосподарських культур
- •Життя як термодинамічний процес
- •Еколого-технологічна оцінка енергетичного балансу вирощування сільськогосподарських культур
- •Енергетична оцінка обробітку ґрунту
- •13. Статистичний аналіз результатів досліджень
- •13.1. Описова (наглядна) статистика — Descriptive statistics
- •13.2. Дисперсійний аналіз
- •13.3. Кореляція і регресія
- •14. Множинний лінійний регресійний аналіз
- •15. Нелінійний регресійний аналіз
- •16. Кластерний аналіз (cluster analysis)
- •Додатки
- •Одержано
- •Додаток 12.10 Енергетична структура врожаю гречки в Україні
- •Додаток 12.11
- •На силос в Україні (Всесоюзний нді кукурудзи) на 1га посіву
- •Одержано Урожай зеленої маси 25000 кг
- •Одержано
- •Енергетична оцінка технології вирощування кукурудзи на зерно, урожай зерна 40,8 ц/га
- •Енергетична оцінка технологій вирощування льону-довгунця
- •Список рекомендованої літератури
- •Ермантраут Едуард Рудольфович
- •Методика наукових досліджень в агрономії
16. Кластерний аналіз (cluster analysis)
На сьогоднішній день у сільськогосподарських науках багатомірним аналізам приділяється недостатньо уваги, тому у цьому розділі зупинимося на загальних аспектах, які допоможуть досліднику застосувати ці методи в своїх дослідженнях.
Найбільш часто у агрономічних дослідженнях застосовується кластерний аналіз. Термін кластерний аналіз уперше запровадив Tryon (1939). Він містить набір різних алгоритмів. Основне питання, що турбує дослідників при аналізі багатовимірних ознак, полягає в надані дослідним даним добру наочну структуру.
На відміну від багатьох інших статистичних процедур, кластерний аналіз використовують тоді, коли дослідник не має яких-небудь апріорних гіпотез щодо загальної оцінки варіантів досліджень. Концепція кластерного аналізу полягає у визначенні серед вихідної множини оптимального значення цільової функції. Більшість алгоритмів кластеризації побудовано на використанні евристичних методів, тому вибір їх зводиться до отримання найбільш корисного результату.
Найбільш часто використовується алгоритм деревоподібної кластерізації. Призначення цього алгоритму складається в певному об'єднанні об'єктів. Типовим результатом такої кластеризації є ієрархічне дерево.
Метод деревоподібної графіки використовується при формуванні кластерів відмінності або відстані між об'єктами. Ці відстані можуть визначатися в одномірному або багатомірному просторі. Найбільш просто відстані між об'єктами в одномірному або багатомірному просторах можна обчислити через евклідові відстані. У просторовому вимірі, що має вигляд двох або трьох осей, реальною геометричною віддаллю між об'єктами є ті, що можна визначити, скажімо, рулеткою.
У сільськогосподарських дослідженнях кластерний аналіз найбільш часто застосовується у селекції, рослинництві та інших науках. Наш приклад буде побудований на комплексній оцінці дії декількох систем удобрення озимої пшениці.
Схема досліду:
1- Контроль - без добрив |
2 - N120Р100К140 |
3 - N120Р100К140 + побічна продукція |
4 - N120Р100К140 + гній 40т/га |
5 - N60Р50К70 + гній 40т/га |
Для оцінки наведених систем удобрення були враховані наступні ознаки:
-
Густота рослин, шт./м2.
Кількість продуктивних стебел, шт./м2.
Кількість зерен в колосі, шт.
Висота рослин, см.
Маса 1000 зерен, г.
Натура зерен, г/л.
Вміст білка, %.
Урожайність, т/га.
У сформованому файлі “Кластерний аналіз” наведені ознаки розміщені стрічками (Case), а варіанти (Var) – колонками (рис.16.1).
Рис 16.1. Формування файлу для кластерного аналізу
У верхньому меню обираємо пункт Statistics далі Multivariate Exploratory Techniques --> Cluster Analysis (рис. 16.2).
|
Рис 16.2. Вибір опцій для кластерного аналізу |
З’являється вікно вибору методу кластерного аналізу (рис. 16.3), в якому обираємо опцію Joining (tree clustering). В цьому вікні є методи К-середніх (K-means clustering) та двовхідне об’єднання (Two way joining).
|
Рис 16.3. Вікно вибору методу кластерного аналізу |
Д
алі
з’являється вікно вибору параметрів
деревоподібної кластеризації. Переходимо
на вкладку (Розширені параметри), де
обираємо (рис.16.4):
Рис. 16.4. Вибір змінних для аналізу
Input file – тип вхідного файлу – Raw data Дані у рядках (файл даних може бути представлений і як матриця кореляцій)
Cluster – що об’єднувати у кластер – Cases (raws) – Рядки (якби у нас був інший файл даних, можливо було б об’єднувати у кластери стовпчики)
Amalgamation (linkage) rule – правила об’єднання – Single linkage (Просте об’єднання)
Distance measure – міра відстаней – Euclidean distances Евклідові відстані
Після вибору параметрів натискаємо кнопку ОК, з’являється вікно Select variables for the analysis Вибір змінних для аналізу (див. рис. з аналогічною назвою), де обираємо показники для аналізу. Натискаємо ОК, і отримуємо вікно з відображеними параметрами можливих результатів кластерного аналізу та кнопками, для визначення типу інтерпретації результатів (див. рис. 15.4, нижня таблиця).
У абсолютній більшості випадків будують дерево кластеризації – це найбільш наглядний спосіб представлення результатів кластерного аналізу. Його можна побудувати у вигляді горизонтального (Horizontal hierarchical tree plot) або вертикального (Vertical icicle plot) дерева кластеризації. Горизонтальне дерево зазвичай будують при великій кількості варіантів (для селекції – вихідних форм, сортів, ліній). Для прикладу побудуємо горизонтальне ієрархічне дерево (рис. 16.5).
|
Рис. 16.5. Графічне представлення результатів кластерного аналізу
|
Кластери (групи) за віддалями визначені за методом “найближчого сусіда ”: чим нижче горизонтальна лінія відносно осі Х, тим найменші віддалі між цими варіантами Висновок. За комплексною оцінкою систем удобрення на урожайність озимої пшениці найбільш близькими за структурою були варіанти сумісного внесення 40 т/га гною + N60P50K70 і N120P100K140 + солома. Варіант внесення 40 т/га гною + N120P100K140 за комплексом ознак найбільш різниться серед досліджуваних варіантів. Наведений висновок буде аналогічним, якщо подати ці ж дані у вигляді Graf of amalgamation schedule - покрокове розміщення або Distance matrix - дистанційна матриця.
|
Рис. 16.6. Інші форми представлення результатів кластерного аналізу
Отже, проведення статистичних аналізів за допомогою пакету Statistica 6.0 дозволяє зосередити увагу не на рутинних обчисленнях за складними формулами, а на безпосередньому аналізі результатів досліджень розуміння впливу факторів досліду на кінцеву ознаку, взаємодії факторів, та виділенні найбільш сприятливих варіантів, їх теоретичному обґрунтуванні на основі біологічних знань.