- •Теория информационных процессов и систем
- •Санкт-Петербург
- •Содержание
- •Введение
- •Лабораторная работа № 1 Кластерный анализ
- •Задача 1. Метод k-средних.
- •Общая логика
- •Вычисления
- •Интерпретация результатов
- •Выполнение работы
- •Шаг 1. Загрузка файла данных
- •Шаг 2. Выбор метода анализа данных
- •Вывод результатов и их анализ
- •Задача 2. Иерархические алгоритмы.
- •Общая логика
- •Иерархическое дерево
- •Меры расстояния
- •Правила объединения или связи
- •Выполнение работы
- •Вывод результатов и их анализ
- •Задача 3.
- •Лабораторная работа № 2 Анализ временных рядов
- •Основные цели
- •Идентификация модели временных рядов
- •Анализ тренда
- •Анализ сезонности
- •Модель арпсс
- •Идентификация
- •Оценивание параметров
- •Оценивание модели
- •Экспоненциальное сглаживание
- •Сезонная и несезонная модели с трендом или без тренда
- •Задача 1. Определение тренда методом скользящих средних. Анализ сезонной составляющей.
- •Выполнение работы
- •Расчет сезонных индексов исходного ряда по аддитивной модели ряда
- •Расчет сезонных индексов исходного ряда по мультипликативной модели ряда
- •Задача 2. Прогнозирование по тренду и сезонной составляющей. Прогнозирование временного ряда методом экспоненциального сглаживания.
- •Выполнение работы
- •Дополнительно:
- •Задача 3.
- •Лабораторная работа № 3 Регрессионный анализ
- •Задача 1. Пошаговая регрессия.
- •Выполнение работы
- •Процедура пошаговой регрессии Backward stepwise:
- •Процедура пошаговой регрессии Forward stepwise:
- •Результаты регрессионного анализа:
- •Дисперсионный анализ:
- •Вычисление предсказанных значений доверительных интервалов:
- •Задача 2. Корреляционный анализ.
- •Выполнение работы
- •Задача 3. Нелинейная регрессия.
- •Выполнение работы:
- •Лабораторная работа № 4 Непараметрические методы математической статистики Основная цель
- •Краткий обзор непараметрических процедур
- •Выбор метода
- •Большие массивы данных и непараметрические методы
- •Задача 1. Таблицы сопряженности 22, статистики , , критерий Макнимара, точный критерий Фишера.
- •Выполнение работы
- •Задача 2. Статистика для сравнения наблюдаемых и ожидаемых частот.
- •Выполнение работы
- •Задача 3. Коэффициенты ранговой корреляции Спирмена и Кендалла.
- •Выполнение работы
- •Задача 4. Критерий серий Вальда-Вольфовица.
- •Выполнение работы:
- •Задача 5. Критерий Манна-Уитни.
- •Выполнение работы:
- •Задача 6. Однофакторный дисперсионный анализ Краскела-Уоллиса и медианный критерий.
- •Выполнение работы:
- •Задача 7. Критерий знаков. Критерий Вилкоксона для связанных пар наблюдений.
- •Выполнение работы:
- •Задача 8. Двухфакторный анализ Фридмана и коэффициент конкордации Кендалла.
- •Выполнение работы:
- •Задача 9. Q-критерий Кокрена.
- •Выполнение работы:
- •Лабораторная работа № 5 Однофакторный дисперсионный анализ
- •Цель дисперсионного анализа
- •Задача 1
- •Выполнение работы:
- •Задача 2
- •Выполнение работы:
- •Задача 3
- •Содержание отчета
- •Список литературы
- •Приложение 1 Пример оформления титульного листа лабораторной работы
Выбор метода
Каждая непараметрическая процедура в модуле имеет свои достоинства и свои недостатки. Например, двухвыборочный критерий Колмогорова-Смирнова чувствителен не только к различию в положении двух распределений, например, к различиям средних, но также чувствителен и к форме распределения. Критерий Вилкоксона парных сравнений предполагает, что можно ранжировать различия между сравниваемыми наблюдениями. Если это не так, лучше использовать критерий знаков. В общем, если результат исследования является важным (например, оказывает ли людям помощь определенная очень дорогостоящая и болезненная терапия?), то всегда целесообразно применить различные непараметрические тесты. Возможно, результаты проверки (разными тестами) будут различны. В таком случае следует попытаться понять, почему разные тесты дали разные результаты. С другой стороны, непараметрические тесты имеют меньшую статистическую мощность (менее чувствительны), чем их параметрические конкуренты, и если важно обнаружить даже слабые отклонения (например, является ли данная пищевая добавка опасной для людей), следует особенно внимательно выбирать статистику критерия.
Большие массивы данных и непараметрические методы
Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n > 100), то не имеет смысла использовать непараметрические статистики. Центральная предельная теорема состоит в том, что когда выборки становятся очень большими, то выборочные средние подчиняются нормальному закону, даже если исходная переменная не является нормальной или измерена с погрешностью. Таким образом, параметрические методы, являющиеся более чувствительными (имеют большую статистическую мощность), всегда подходят для больших выборок. Большинство критериев значимости многих непараметрических статистик, описанных далее, основываются на асимптотической теории (больших выборок) поэтому соответствующие тесты часто не выполняются, если размер выборки становится слишком малым.
Рассмотрим критерии проверки гипотез об идентичности распределений H0: F(X) = G(X) в случае отсутствия предположений о виде законов F(X) и G(X). Для этого применяют непараметрические критерии, которые не связаны с определенными параметрами распределений. Большинство из них основано на анализе ранжированного ряда измеренных значений, причем в качестве центра распределения целесообразно использовать медиану, в качестве характеристики вариабельности – интерквантильный рамах распределения.
Непараметрические методы применяются:
-
для качественных данных, представленных в номинальной шкале;
-
для данных, измеряемых в порядковой шкале (т.е. представленных в виде рангов);
-
для количественных данных в том случае, когда распределение генеральной совокупности неизвестно.
При решении конкретной задачи необходимо выбрать тот или иной метод. Первым критерием для выбора метода является вид шкалы, в которой представлены исходные данные. Вторым критерием является вид выборок (независимые или связанные) и их количество.
Связанные (зависимые) выборки характеризуются тем, что измерения проводятся на одной и той же группе, состоящей из n объектов, находящихся в различных условиях. Например, спрос на продукцию фирмы до и после рекламной кампании, частота сердечных сокращений до и после физической нагрузки и т.п. В случае если каждый из n объектов подвергается k воздействиям, то результаты наблюдений представляют k связанных выборок объема n. В связанных выборках количество наблюдений одинаково. Независимые (несвязанные) выборки такими свойствами не обладают.
Таким образом, рассматриваемые ниже методы можно классифицировать следующим образом:
-
Исходные данные: две независимые выборки объемов и .
Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям1.
Методы:
-
критерий серий Вальда-Вольфовица;
-
критерий Манна-Уитни;
-
двухвыборочный критерий Колмогорова-Смирнова.
-
Исходные данные: пары наблюдений двух признаков X и Y, измеренных в порядковых или количественных шкалах.
Проверяемая гипотеза H0: признаки X и Y некоррелированны.
Меры статистической зависимости:
-
ранговый коэффициент корреляции Спирмена;
-
коэффициент корреляции Кендалла.
-
Исходные данные: k независимых выборок объемов .
Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.
Методы:
-
однофакторный дисперсионный анализ Краскела-Уоллиса;
-
медианный критерий.
-
Исходные данные: две связанные выборки объемов n.
Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.
Методы:
-
критерий знаков;
-
критерий Вилкоксона.
-
Исходные данные: k связанных выборок объемов n.
Проверяемая гипотеза H0: выборки принадлежат однородным генеральным совокупностям.
Методы: двухфакторный анализ Фридмана.
Меры связи: коэффициент конкордации Кендалла.
-
Связанные выборки, измеряемые в номинальной шкале.
1) Исходные данные: две связанные выборки объемов n переменных X и Y, каждая из которых принимает два значения (0, 1; +, – и т.д.).
Проверяемая гипотеза H0: эффект воздействия отсутствует.
Метод: критерий Макнимара.
2) Исходные данные: две связанные выборки объемов n переменных , каждая из которых принимает два значения (0, 1; +, – и т.д.).
Проверяемая гипотеза H0: эффект воздействия отсутствует.
Метод: критерий Кокрена.
-
Выборки, измеряемые в номинальной шкале.
1) Исходные данные: выборки двух случайных объемов n переменных X и Y, каждая из которых принимает два значения (0, 1; +, – и т.д.).
Проверяемая гипотеза H0: X и Y независимы.
Метод: анализ таблицы сопряженности (точный критерий Фишера, критерий 2).
2) Исходные данные: выборки двух переменных X и Y. X принимает k значений, Y – r значений.
Проверяемая гипотеза H0: X и Y независимы.
Метод: анализ таблицы сопряженности k×r (критерий 2).