
- •1. Які математичні операції можна застосовувати до метричних ознак? Які перетворення можна застосовувати до метричних ознак?
- •2. Наведіть приклади ознак, виміряних в порядковій шкалі.
- •3. Які математичні операції можна застосовувати до порядкових ознак? Які перетворення можна застосовувати до порядкових ознак?
- •Які математичні операції можна застосовувати до номінальних ознак? Які перетворення можна застосовувати до номінальних ознак?
- •Дайте визначення квартилів. Скільки є квартилів? Для ознак в яких шкалах можуть обчислюватися ці показники
- •9. Дайте визначення коефіцієнту варіації. Якою є розмірність цього показника? Які значення може приймати коефіцієнт варіації?
- •Які параметри має нормальний розподіл? Якою є сфера основного застосування цього розподілу?
- •.Які параметри має розподіл 2 ? Якою є сфера основного застосування цього розподілу?
- •Які параметри має розподіл Фішера? Якою є сфера основного застосування цього розподілу?
- •2. В якому випадку говорять про кореляційний зв'язок між двома ознаками? Наведіть приклади.
- •1. Дайте визначення статистичної гіпотези.
- •2. Запишіть приклад нульової та альтернативної до неї статистичної гіпотези.
- •3. Дайте визначення помилки першого роду.
- •4. Дайте визначення помилки другого роду.
- •9. Як оцінюється значущість коефіцієнтів Чупрова та Крамера?
- •6. З якою метою оцінюють значущість різниці середніх? Поясніть на прикладі.
- •Регресія
- •Як інтерпретуються коефіцієнти регресії в рівнянні лінійної регресії?
- •Дайте визначення рівняння лінійної регресії в нормальних (стандартних) координатах. В чому його специфіка по відношенню до звичайного рівняння лінійної регресії?
- •Які Ви знаєте підходи до оцінювання якості рівняння регресії?
- •Як обчислюється і який зміст має коефіцієнт детермінації?
- •Як інтерпретується коефіцієнт множинної кореляції?
- •Дайте визначення лінійного і нелінійного зв’язків. Проілюструйте свою відповідь діаграмою розсіяння.
- •Дайте визначення прямого і зворотнього зв’язків. Проілюструйте свою відповідь діаграмою розсіяння.
- •Які значення може приймати коефіцієнт Пірсона?
- •Наявність якого зв’язку фіксує коефіцієнт кореляції Пірсона?
- •Як інтерпретуються значення коефіцієнту кореляції Пірсона?
- •Поясніть поняття хибної залежності та хибної незалежності між двома ознаками.
- •Яку інформацію про причинно-наслідковий характер зв’язку дає коефіцієнт кореляції Пірсона?
- •Яке співвідношення між значеннями коефіцієнту кореляції Пірсона та кореляційного відношення?
- •Дайте визначення кластера.
- •Як застосовується кластерний аналіз для побудови типологій об'єктів?
- •Як застосовується кластерний аналіз для групування ознак?
- •Наведіть аксіоми відстані.
- •5. Які ви знаєте визначення відстаней для ознак, виміряних в метричних шкалах?
- •Які ви знаєте визначення відстаней для ознак, виміряних в номінальних шкалах?
- •Як можна оцінити надійність проведеного розбиття на кластери?
- •12. Які особливості структури матриці відстаней?
- •14.Сформулюйте загальну схему алгоритму k-means Cluster (Quick Cluster), реалізованого в пакеті spss. В чому особливості цього алгоритму у порівнянні з ієрархічним кластерним аналізом?
- •Формулы для решения зад ач
Як можна оцінити надійність проведеного розбиття на кластери?
кожен кластер поділити на 2 частини, і порівняти їх внутрішні структури. Якщо кластери 25-30-45, то внутрішня структура мажє бути в кожному кластері приблизно такаж. Здесь существует эмпирическое правило — устойчивая типология сохраняется при изменении методов кластеризации. Результаты иерархического кластерного анализа можно проверять итеративным кластерным анализом по методу k-средних. Если сравниваемые классификации групп респондентов имеют долю совпадений более 70 % (более 2/3 совпадений), то кластерное решение принимается.
8. Сформулюйте загальну схему ієрархічного агломеративного кластерного аналізу.
В иерархических методах каждое наблюдение образовывает сначала свой отдельный кластер. На первом шаге два соседних кластера объединяются в один; этот процесс может продолжаться до тех пор, пока не останутся только два кластера.
9. Скільки різних варіантів розбиття на кластери дає алгоритм ієрархічного кластерного аналізу?
Алгоритм ієрархічного кластерного аналізу дає наступні варіанти розбиття на кластери: кластеризація з двома змінними, кластеризація з більше ніж 2 змінними і кластеризація з попереднім факторним аналізом. Алгоритм ієрархічного кластерного аналізу дає нам два тривіальні рішення (розбиває на 2 кластери):
1) всі об’єкти - один кластер;
2) всі об’єкти – окремі кластери.
10. Як Ви знаєте підходи до оцінювання кількості кластерів при використанні ієрархічного кластерного аналізу?
1) Попередньо знаємо кількість кластерів (з результатів емпіричних досліджень, теоретичних міркувань);
Якщо таких міркувань не має, ми спираємося на певні властивості наших емпіричних даних. Це досить небезпечно, так як різні методи дають різні кількості. Тут необхідно на кожному кроці слідкувати за змінами відстані
Які методи визначення відстаней між кластерами під час кластеризації Ви знаєте?
Метод ближайшего соседа. (расстояние между двумя ближайшими обьектами в разных кластерах)
метод дальнейшего соседа (тожесамое, токо наоборот)
метод среднего значения (берутся попарно все обьекты в обоих кластерах (1 с 1 2 с 2 и т. д.) и
среднее от их всех расстояний — расстояние между кластерами.
Связь между группами, Связь внутри групп, Центроидная кластеризация, Медианная
кластеризация, метода Варда.
12. Які особливості структури матриці відстаней?
Симетричная таблица в которой первая строчка и первый столбик — обьекты. На пересечении между двумя обьектами — расстояние между ними. Расстояние между одним и тем же обьектом — 0, либо пустая клетка. (видели таблицу с расстояниями между городами? Матрица расстояний в чистом виде)
13. Які алгоритми кластерного аналізу реалізовані в пакеті SPSS?
иерархический, к-средних, Двувходовое объединение (two-step)
14.Сформулюйте загальну схему алгоритму k-means Cluster (Quick Cluster), реалізованого в пакеті spss. В чому особливості цього алгоритму у порівнянні з ієрархічним кластерним аналізом?
С вычислительной точки зрения вы можете рассматривать этот метод, как дисперсионный анализ (см. Дисперсионный анализ) "наоборот". Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) - максимизировать изменчивость между кластерами. Данный способ аналогичен методу "дисперсионный анализ (ANOVA) наоборот" в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом K средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа (ANOVA).