
- •Теория информационных процессов и систем
- •Санкт-Петербург
- •Содержание
- •Введение
- •Лабораторная работа № 1 Кластерный анализ
- •Задача 1. Метод k-средних.
- •Общая логика
- •Вычисления
- •Интерпретация результатов
- •Выполнение работы
- •Шаг 1. Загрузка файла данных
- •Шаг 2. Выбор метода анализа данных
- •Вывод результатов и их анализ
- •Задача 2. Иерархические алгоритмы.
- •Общая логика
- •Иерархическое дерево
- •Меры расстояния
- •Правила объединения или связи
- •Выполнение работы
- •Вывод результатов и их анализ
- •Задача 3.
- •Лабораторная работа № 2 Анализ временных рядов
- •Основные цели
- •Идентификация модели временных рядов
- •Анализ тренда
- •Анализ сезонности
- •Модель арпсс
- •Идентификация
- •Оценивание параметров
- •Оценивание модели
- •Экспоненциальное сглаживание
- •Сезонная и несезонная модели с трендом или без тренда
- •Задача 1. Определение тренда методом скользящих средних. Анализ сезонной составляющей.
- •Выполнение работы
- •Расчет сезонных индексов исходного ряда по аддитивной модели ряда
- •Расчет сезонных индексов исходного ряда по мультипликативной модели ряда
- •Задача 2. Прогнозирование по тренду и сезонной составляющей. Прогнозирование временного ряда методом экспоненциального сглаживания.
- •Выполнение работы
- •Дополнительно:
- •Задача 3.
- •Лабораторная работа № 3 Регрессионный анализ
- •Задача 1. Пошаговая регрессия.
- •Выполнение работы
- •Процедура пошаговой регрессии Backward stepwise:
- •Процедура пошаговой регрессии Forward stepwise:
- •Результаты регрессионного анализа:
- •Дисперсионный анализ:
- •Вычисление предсказанных значений доверительных интервалов:
- •Задача 2. Корреляционный анализ.
- •Выполнение работы
- •Задача 3. Нелинейная регрессия.
- •Выполнение работы:
- •Лабораторная работа № 4 Непараметрические методы математической статистики Основная цель
- •Краткий обзор непараметрических процедур
- •Выбор метода
- •Большие массивы данных и непараметрические методы
- •Задача 1. Таблицы сопряженности 22, статистики , , критерий Макнимара, точный критерий Фишера.
- •Выполнение работы
- •Задача 2. Статистика для сравнения наблюдаемых и ожидаемых частот.
- •Выполнение работы
- •Задача 3. Коэффициенты ранговой корреляции Спирмена и Кендалла.
- •Выполнение работы
- •Задача 4. Критерий серий Вальда-Вольфовица.
- •Выполнение работы:
- •Задача 5. Критерий Манна-Уитни.
- •Выполнение работы:
- •Задача 6. Однофакторный дисперсионный анализ Краскела-Уоллиса и медианный критерий.
- •Выполнение работы:
- •Задача 7. Критерий знаков. Критерий Вилкоксона для связанных пар наблюдений.
- •Выполнение работы:
- •Задача 8. Двухфакторный анализ Фридмана и коэффициент конкордации Кендалла.
- •Выполнение работы:
- •Задача 9. Q-критерий Кокрена.
- •Выполнение работы:
- •Лабораторная работа № 5 Однофакторный дисперсионный анализ
- •Цель дисперсионного анализа
- •Задача 1
- •Выполнение работы:
- •Задача 2
- •Выполнение работы:
- •Задача 3
- •Содержание отчета
- •Список литературы
- •Приложение 1 Пример оформления титульного листа лабораторной работы
Задача 3.
Положение на рынке местного производителя пива представляют следующие цифры (исходные данные по кварталам определить самостоятельно):
Продажи за квартал |
||||
Год |
I |
II |
III |
IV |
1 |
||||
2 |
||||
3 |
||||
4 |
||||
5 |
Например:
Продажи за квартал |
||||
Год |
I |
II |
III |
IV |
1 |
19 |
24 |
38 |
25 |
2 |
21 |
28 |
44 |
23 |
3 |
23 |
31 |
41 |
23 |
4 |
24 |
35 |
48 |
21 |
5 |
22 |
37 |
50 |
22 |
-
Вычислите сезонные индексы для этих данных (используйте центрированные средние значения за 4 квартала).
-
Исключите сезонную составляющую из этих данных.
-
Методом наименьших квадратов найдите параметры прямой, которая наилучшим образом характеризует основную тенденцию временного ряда в данных о продаже пива.
-
Определите циклическую компоненту в этом временном ряду, исключив тренд из исходных данных.
Лабораторная работа № 3 Регрессионный анализ
Основная цель регрессионного анализа
– определение связи между некоторой
характеристикой Y
наблюдаемого явления или объекта и
величинами
,
которые обусловливают, объясняют
изменения Y. Переменная
Y – зависимая переменная
(отклик), объясняющие переменные
– предикторы, регрессоры или
факторы.
Регрессионная модель может быть записана в виде:
,
где
– детерминированная составляющая
отклика Y, зависящая
от
,
а – случайная
составляющая.
Случайная составляющая обусловлена влиянием на отклик множества неучтенных факторов, а также ошибок наблюдений или измерений зависимой переменной.
Часто объясняющие переменные
называют независимыми переменными.
Такое название во многих случаях не
соответствует реальной ситуации:
«независимые» переменные могут быть
зависимы и влиять одна на другую. Часто
понятие «независимые переменные»
используется в другом контексте: это
переменные, значения которых в процессе
определения отклика, могут устанавливаться
произвольно, независимо.
Существуют различные регрессионные
модели, определяемые выбором функции
:
1) простая линейная регрессия:
.
2) множественная регрессия:
.
3) полиномиальная регрессия:
.
4) регрессионная модель общего вида:
,
где
– заданные функции факторов.
Коэффициенты
– параметры регрессии.
В приведенные регрессионные модели
параметры
входят линейно. Такие модели называют
линейными (по параметрам)
моделями, а математические методы
анализа этих моделей – линейным
регрессионным анализом.
Задача 1. Пошаговая регрессия.
Основные понятия:
Простая линейная регрессия. Оценка параметров регрессии методом наименьших квадратов.
Задание:
Используя выборку данных (1 результативный
признак Y, 5 факторных
признаков
(по каждому признаку не менее 30 значений);
задаете самостоятельно), выполнить
следующие задания:
-
Используя пошаговую регрессию, определите минимальное число факторов, достаточно точно предсказывающих зависимую переменную Y. Используйте обе процедуры Backward и Forward Stepwise. Подберите подходящие значения F-включения и F-удаления для каждой процедуры. Сравните и проанализируйте результаты обеих процедур.
-
Используя наиболее существенные факторы, найдите уравнение множественной регрессии. Выполните дисперсионный анализ. Проверьте значимость регрессионной модели. Найдите оценку дисперсии ошибок наблюдений, коэффициенты детерминации и множественной корреляции. Определите доверительные интервалы для параметров регрессии, проверьте гипотезу о значимости параметров и гипотезу H0: 1 = 2 = 0, где 1 и 2 – коэффициенты регрессии для первого и второго из отобранных факторов.
-
Определите остатки. Постройте график остатков. Проверьте выполнение предположения регрессионного анализа:
-
дисперсия остатков постоянна;
-
остатки некоррелированны;
-
остатки имеют нормальное распределение
.
Сделайте вывод об адекватности регрессионной модели результатам наблюдений.
-
Используя модель множественной регрессии, определите предсказанное значение зависимой переменной Y при следующих значениях выбранных p факторов
,
где
– оценка среднего квадратического
отклонения переменной
.
Определите доверительные интервалы
для среднего и индивидуального
предсказанного значения. Для всех
расчетов принять
.