- •Теория информационных процессов и систем
- •Санкт-Петербург
- •СПбГиэу, 2008 Содержание
- •Введение
- •Лабораторная работа № 1 Кластерный анализ
- •Задача 1. Метод k-средних.
- •Общая логика
- •Вычисления
- •Интерпретация результатов
- •Выполнение работы
- •Шаг 1. Загрузка файла данных
- •Шаг 2. Выбор метода анализа данных
- •Вывод результатов и их анализ
- •Задача 2. Иерархические алгоритмы.
- •Общая логика
- •Иерархическое дерево
- •Меры расстояния
- •Правила объединения или связи
- •Выполнение работы
- •Вывод результатов и их анализ
- •Задача 3.
- •Лабораторная работа № 2 Анализ временных рядов
- •Основные цели
- •Идентификация модели временных рядов
- •Анализ тренда
- •Анализ сезонности
- •Модель арпсс
- •Идентификация
- •Оценивание параметров
- •Оценивание модели
- •Экспоненциальное сглаживание
- •Сезонная и несезонная модели с трендом или без тренда
- •Задача 1. Определение тренда методом скользящих средних. Анализ сезонной составляющей.
- •Выполнение работы
- •Расчет сезонных индексов исходного ряда по аддитивной модели ряда
- •Расчет сезонных индексов исходного ряда по мультипликативной модели ряда
- •Задача 2. Прогнозирование по тренду и сезонной составляющей. Прогнозирование временного ряда методом экспоненциального сглаживания.
- •Выполнение работы
- •Дополнительно:
- •Задача 3.
- •Лабораторная работа № 3 Регрессионный анализ
- •Задача 1. Пошаговая регрессия.
- •Выполнение работы
- •Процедура пошаговой регрессии Backward stepwise:
- •Процедура пошаговой регрессии Forward stepwise:
- •Результаты регрессионного анализа:
- •Дисперсионный анализ:
- •Вычисление предсказанных значений доверительных интервалов:
- •Задача 2. Корреляционный анализ.
- •Выполнение работы
- •Задача 3. Нелинейная регрессия.
- •Выполнение работы:
- •Лабораторная работа № 4 Непараметрические методы математической статистики Основная цель
- •Краткий обзор непараметрических процедур
- •Выбор метода
- •Большие массивы данных и непараметрические методы
- •Задача 1. Таблицы сопряженности 22, статистики , , критерий Макнимара, точный критерий Фишера.
- •Выполнение работы
- •Задача 2. Статистика для сравнения наблюдаемых и ожидаемых частот.
- •Выполнение работы
- •Задача 3. Коэффициенты ранговой корреляции Спирмена и Кендалла.
- •Выполнение работы
- •Задача 4. Критерий серий Вальда-Вольфовица.
- •Выполнение работы:
- •Задача 5. Критерий Манна-Уитни.
- •Выполнение работы:
- •Задача 6. Однофакторный дисперсионный анализ Краскела-Уоллиса и медианный критерий.
- •Выполнение работы:
- •Задача 7. Критерий знаков. Критерий Вилкоксона для связанных пар наблюдений.
- •Выполнение работы:
- •Задача 8. Двухфакторный анализ Фридмана и коэффициент конкордации Кендалла.
- •Выполнение работы:
- •Задача 9. Q-критерий Кокрена.
- •Выполнение работы:
- •Лабораторная работа № 5 Однофакторный дисперсионный анализ
- •Цель дисперсионного анализа
- •Задача 1
- •Выполнение работы:
- •Задача 2
- •Выполнение работы:
- •Задача 3
- •Список литературы
- •Приложение 1 Содержание дисциплины
- •Приложение 2 Пример оформления титульного листа лабораторной работы
Задача 6. Однофакторный дисперсионный анализ Краскела-Уоллиса и медианный критерий.
Задание:
Решите следующие задачи, используя однофакторный анализ Краскела-Уоллиса. К этим же задачам примените медианный критерий: сформулируйте и проверьте соответствующие гипотезы. Сравните и прокомментируйте полученные результаты.
k групп водителей обучались по различным методикам. После окончания срока обучения был произведен тестовый контроль над случайно отобранными водителями из каждой группы. Получены следующие результаты (задать самостоятельно):
№ группы |
Число ошибок, допущенных водителями, |
Сумма ошибок по каждой группе, |
Число контролируемых водителей, |
1 |
|
|
|
2 |
|
|
|
3 |
|
|
|
… |
|
|
|
K |
|
|
|
Например:
№ группы |
Число ошибок, допущенных водителями, |
Сумма ошибок по каждой группе, |
Число контролируемых водителей, |
1 |
1 3 2 1 0 2 1 |
10 |
7 |
2 |
2 3 2 1 4 – – |
12 |
5 |
3 |
4 5 3 – – |
12 |
3 |
На уровне значимости проверить гипотезу об отсутствии влияния различных методик обучения на результаты тестового контроля водителей.
Выполнение работы:
Для выполнения лабораторной работы подготовьте исходные данные для проведения интеллектуального анализа в системе STATISTICA (рис. 4.34).
Гипотеза H0: выборки получены из одной генеральной совокупности.
В стартовой панели модуля Nonparametric Statistics (Непараметрические статистики) (рис. 4.35) выбираем Kruskal-Wallis ANOVA, median test (Однофакторный дисперсионный анализ Краскела-Уоллиса, медианный критерий) и нажимаем OK.
Рис. 4.34. Исходная выборка данных
Рис. 4.35. Стартовая панель модуля Nonparametric Statistics (Непараметрические статистики)
В появившемся окне (рис. 4.36) нажимаем Variables и задаем переменные (рис. 4.37). Нажимаем OK (рис. 4.38).
Рис. 4.36. Окно Kruskal-Wallis ANOVA, median test (Однофакторный дисперсионный анализ Краскела-Уоллиса, медианный критерий)
Рис. 4.37. Окно выбора переменных
В появившемся окне Kruskal-Wallis ANOVA, median test (Однофакторный дисперсионный анализ Краскела-Уоллиса, медианный критерий) нажимаем Codes (рис. 4.38) и выбираем коды для группируемых переменных (рис. 4.39). Нажимаем OK и получаем следующую таблицу результатов (рис. 4.40).
Рис. 4.38. Окно Kruskal-Wallis ANOVA, median test (Однофакторный дисперсионный анализ Краскела-Уоллиса, медианный критерий)
Рис. 4.39. Окно выбора кодов
Рис. 4.40. Таблица результатов анализа
Критерий Краскела-Уоллиса служит для проверки гипотезы H0: k выборок объемов n1, …, nk получены из одной генеральной совокупности.
Гипотеза H0 принимается на уровне значимости , если выборочное значение Нв статистики H удовлетворяет условию:
.
Так как квантиль распределения 2: , а выборочное значение статистики H: Hв = 2.75, то можно сделать вывод: гипотеза H0 принимается, т. е. разные методики не влияют на результат обучения.
Применим для данной задачи медианный критерий (рис. 4.41), который используется для проверки гипотезы H0: все k генеральных совокупностей имеют равные медианы.
Рис. 4.41. Таблица результатов медианного теста
Вывод: если гипотеза H0 верна, статистика 2 имеет распределение хи-квадрат с k – 1 числом степеней свободы. Гипотеза H0 отклоняется, если
.
В данном случае: , а . Следовательно, гипотеза H0 принимается.
И в том и в другом случае гипотеза принимается, следовательно, разные методики не влияют на результаты обучения.
Инвестор хочет знать, существуют ли значительные различия в доходах от акций, облигаций и инвестиционных фондов. Он взял случайные выборки каждого способа вложения капиталов и получил следующие результаты (задать самостоятельно):
|
Доходы (в %) |
||||||
Акции |
|
|
|
|
|
|
|
Облигации |
|
|
|
|
|
|
|
Инвестиционные фонды |
|
|
|
|
|
|
|
Например:
|
Доходы (в %) |
||||||
Акции |
2.0 |
6.0 |
2.0 |
2.1 |
6.2 |
2.9 |
3.0 |
Облигации |
4.0 |
3.1 |
2.2 |
5.3 |
5.9 |
5.5 |
|
Инвестиционные фонды |
3.5 |
3.1 |
2.9 |
6.0 |
4.5 |
3.2 |
|
определите основную H0 и альтернативную H1 гипотезы;
проверьте гипотезу H0 при ;
сформулируйте окончательный вывод.