
- •Компьютерный анализ данных
- •Введение
- •1. Способы измерения информации и представления данных.
- •1.1. Многомерные статистические данные. Наблюдения, объекты и признаки. Математическое и табличное представление многомерных данных
- •1.2. Виды измерительных шкал
- •2. Простейшие способы моделирования данных
- •2.1. Зачем нужно моделировать данные
- •2.2. Моделирование данных с помощью функции слчис()
- •2.3. Моделирование данных равномерного распределения
- •2.4. Простейший способ моделирования нормальной случайной величины
- •2.5. Моделирование законов распределения случайных величин средствами excel
- •3. Предварительный анализ данных одномерных признаков
- •3.1. Расчет средних значений и дисперсии одномерного признака
- •3.2. Диапазон значений признака
- •3.3. Расчет частотного ряда признака
- •3.4. Графическое представление данных. Гистограмма.
- •3.5. Предварительный анализ многомерных данных. Диаграмма рассеивания
- •4. Моделирование данных в более сложных случаях
- •4.1. Метод неравномерной рулетки
- •4.2. Метод отбраковки
- •4.3. Моделирование многомерного нормального распределения.
- •5. Методы преобразования данных
- •5.1. Нормировка значений признака
- •5.2. Преобразование измерительных шкал
- •6. Проверка статистических гипотез
- •6.1. Принцип решения задач проверки статистических гипотез
- •6.2. Сглаживание эмпирических данных теоретической функцией плотности ( )
- •6.3. Непараметрический критерий оценки зависимости признаков ( )
- •6.4. Проверка гипотезы равенства средних двух выборок (t - критерий)
- •6.5. Дисперсионный анализ –классификация по одному признаку (f - критерий)
- •6.6. Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •7. Методы многомерной Классификации
- •7.1. Постановка задачи
- •7.2. Меры сходства объектов многомерной выборки
- •7.3. Меры сходства групп объектов (классов)
- •7.3. Иерархический метод классификации
- •7.4. Классификация многомерных наблюдений методом k - средних
- •Практическое № 2 Предварительный анализ - одномерных признаков
- •Практическое № 3 Предварительный анализ - многомерных данных
- •Практическое № 4 Метод неравномерной рулетки
- •Практическое № 5 Метод отбраковки
- •Практическое № 6
- •Практическое № 7 Методы преобразования данных
- •Практическое № 8 Проверка гипотезы о согласии эмпирических данных теоретическому закону распределения.
- •Практическое № 9 Непараметрический критерий оценки зависимости признаков
- •Практическое № 10 Проверка гипотезы равенства средних двух выборок (t - критерий)
- •Практическое № 11 Дисперсионный анализ – классификация по одному признаку (f - критерий)
- •Практическое № 12 Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •Практическое № 13 Расчет матриц сходства объектов выборки
- •Практическое № 14 Иерархический метод классификации
- •Практическое № 15 Классификация выборки методом k - средних
- •Список рекомендуемой литературы
- •Содержание
6.2. Сглаживание эмпирических данных теоретической функцией плотности ( )
Часто выборочный частотный ряд оказывается очень близким к какому-либо известному теоретическому закону распределения. Кроме того, отдельные методы анализа данных требуют того, чтобы данные подчинялись определенному закону распределения. В этих случаях возникает необходимость решения задачи проверки согласованности данных с теоретическим законом распределения. Критерии проверки статистических гипотез о согласованности данных с теоретическим законом распределения называются критериями согласия. Одним из самых распространенных критериев согласия является критерий согласия К. Пирсона (или - “хи квадрат”). В качестве меры расхождения теоретического и выборочного законов распределения в критерии принята взвешенная сумма квадратов отклонений соответствующих частотных рядов:
, (6.1)
где
- теоретические вероятности попадания
случайной величины в заданные интервалы
;
- частоты выборочного
частотного ряда
;
k – количество интервалов частотного ряда;
n – объем выборки.
Рис. 6.4. Соотношение выборочного и теоретического частотных рядов: а) выборочная частота; б) – теоретическая частота
В теории доказывается,
что если частотные ряды отличаются не
значимо, то статистика (6.1) распределена
по закону
с
степенями свободы, где k – количество
интервалов, t – число связей
(параметров, рассчитанных по выборке).
Функция плотности
имеет вид рис. 6.5. Проверка статистической
гипотезы производится для правосторонней
критической области. Уровень значимости
обычно
выбирают равным 0, 05.
Рис. 6.5. Функция плотности распределения
Рассмотрим примеры проверки статистических гипотез о согласованности данных теоретическим законам распределения. Для этого будем использовать данные и результаты расчетов, приведенные в параграфе 3.2. Скопируем данные и таблицы выборочных частотных рядов на новый лист EXCEL (рис. 6.6 и рис. 6.7).
Рис. 6.6. Таблица данных
Рис. 6.7. Результаты предварительного анализа данных
Данные, приведенные
в таблице данных на рис. 6.6 были получены
путем моделирования. Признаки
моделировались, как выборки из равномерных
распределений, а признаки
,
как выборки из нормальных распределений.
Проверим статистические гипотезы о том
действительно ли модельные данные
согласуются с теоретическими законами
распределения (равномерным и нормальным),
то есть, правильно ли мы решили задачу
моделирования.
Рассчитаем
теоретические частоты для равномерного
распределения. Частоты теоретического
частотного ряда по всем пяти интервалам
(рис. 6.8).
Рис. 6.8. Теоретические вероятности равномерного распределения
Расчеты выборочных
значений критерия
для признаков
приведены на рис. 6.9. В последнем столбце
таблицы на рис. 6.9 содержатся критические
значения критерия
при степенях свободы
.
Рис. 6.9. Расчет выборочных значений критерия для равномерных распределений
По результатам
сравнения выборочных и критических
значений критерия
,
приведенных на рис. 6.9 можно сделать
вывод, что признаки
не согласуются с гипотезой о равномерном
распределении, а выборочные данные
признака
согласуются с гипотезой о равномерном
распределении. Гистограммы, построенные
по данным выборок признаков
,
так же подтверждают сделанный вывод.
Совпадение результатов расчетов
выборочных значений критерия для
признаков
не случайно. Признак
был получен путем линейного преобразования
признака
.
Рассмотрим расчеты, произведенные для проверки гипотезы нормальности выборок признаков . Расчет теоретических частот приведем на примере признака . Теоретические частоты для нормального распределения производятся с помощью функции EXCEL НОРМРАСП. Функция НОРМРАСП позволяет рассчитать интеграл нормального распределения Рис. 6.10. Интерфейс функции НОРМРАСП приведен на рис. 6.11.
Рис. 6.10. Интегральная функция НОРМРАСП
Рис. 6.11. Ввод параметров функции НОРМРАСП
Расчет теоретических частот нормального распределения по интервалам производится в два шага. На первом шаге рассчитываются интегральные функции по правым границам интервалов. Последняя граница берется равной бесконечности и соответственно интеграл равен 1 (рис. 6.12). В числе параметров функции НОРМРАСП вводятся средние значения и среднеквадратичные значения, рассчитываемы по выборочным данным (рис. 6.7).
Рис. 6.12. Таблица накапливаемых частот нормальных функций распределения
На втором шаге рассчитываются вероятности попадания нормальных случайных величин с заданными параметрами на интервалы, построенные для частотных рядов выборочных данных. Вероятности рассчитываются как разности двух последовательных накапливаемых интегралов (рис.6.13).
Рис. 6.13. Таблица накапливаемых частот нормальных функций распределения
Рис. 6.14. Расчет выборочных значений критерия для нормальных распределений