
- •Компьютерный анализ данных
- •Введение
- •1. Способы измерения информации и представления данных.
- •1.1. Многомерные статистические данные. Наблюдения, объекты и признаки. Математическое и табличное представление многомерных данных
- •1.2. Виды измерительных шкал
- •2. Простейшие способы моделирования данных
- •2.1. Зачем нужно моделировать данные
- •2.2. Моделирование данных с помощью функции слчис()
- •2.3. Моделирование данных равномерного распределения
- •2.4. Простейший способ моделирования нормальной случайной величины
- •2.5. Моделирование законов распределения случайных величин средствами excel
- •3. Предварительный анализ данных одномерных признаков
- •3.1. Расчет средних значений и дисперсии одномерного признака
- •3.2. Диапазон значений признака
- •3.3. Расчет частотного ряда признака
- •3.4. Графическое представление данных. Гистограмма.
- •3.5. Предварительный анализ многомерных данных. Диаграмма рассеивания
- •4. Моделирование данных в более сложных случаях
- •4.1. Метод неравномерной рулетки
- •4.2. Метод отбраковки
- •4.3. Моделирование многомерного нормального распределения.
- •5. Методы преобразования данных
- •5.1. Нормировка значений признака
- •5.2. Преобразование измерительных шкал
- •6. Проверка статистических гипотез
- •6.1. Принцип решения задач проверки статистических гипотез
- •6.2. Сглаживание эмпирических данных теоретической функцией плотности ()
- •6.3. Непараметрический критерий оценки зависимости признаков ()
- •6.4. Проверка гипотезы равенства средних двух выборок (t - критерий)
- •6.5. Дисперсионный анализ –классификация по одному признаку (f - критерий)
- •6.6. Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •Задания к практическим занятиям Практическое № 1 Анкетный опрос
- •Практическое № 2 Предварительный анализ - одномерных признаков
- •Практическое № 3 Предварительный анализ - многомерных данных
- •Практическое № 4 Метод неравномерной рулетки
- •Практическое № 5 Метод отбраковки
- •Практическое № 6
- •Практическое № 7 Методы преобразования данных
- •Практическое № 8 Проверка гипотезы о согласии эмпирических данных теоретическому закону распределения.
- •Практическое № 9 Непараметрический критерий оценки зависимости признаков
- •Практическое № 10 Проверка гипотезы равенства средних двух выборок (t - критерий)
- •Практическое № 11 Дисперсионный анализ – классификация по одному признаку (f - критерий)
- •Практическое № 12 Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •Список рекомендуемой литературы
- •Содержание
6.3. Непараметрический критерий оценки зависимости признаков ()
Критерий
нашел еще одно важное применение. Он
используется для оценки зависимости
признаков. В отличие от коэффициента
корреляции с помощью критерия
может быть выявлена и нелинейная связь.
Логику применения критерия рассмотрим
на простом примере.
Предположим, что в период предвыборной компании, оргкомитет одного из кандидатов производит опрос электората, с целью выявления влияния пола на предпочтения, отдаваемые кандидатам. В ходе опроса хотят выяснить, влияет ли пол на выбор кандидата. Если влияет, избирательному штабу необходимо скорректировать организацию рекламной компании.
Поскольку мы не
имеем реальных данных, мы можем легко
смоделировать ситуацию. Для демонстрации
расчетов по оценки зависимости признаков
будем использовать таблицу данных (рис.
6.15). Столбцы данных X1 Y1 - это выборка из
двухмерного нормального распределения
с параметрами
,
,
(копия данных практического занятия №6
– класс 2). Признаки X2 Y2 получены
путем копирования столбцов F(X1)и F(x2) из
таблицы данных практического занятия
№ 2. Признак“Пол”смоделируем путем преобразования
признака X1. Преобразование состоит в
сравниваем значения признака с его
средним значением. При этом увеличим
долю женщин в выборке, введением
коэффициента 0,92. Таким образом, количество
женщин в выборке составит 59 человек,
мужчин 41 человек.
Рис 6.15 Таблица данных
Признак “Кандидат” сформируем путем последовательного выполнения операции фильтровать - копировать. При копировании будем копировать три фамилии ”Иванов” “Петров” “Сидоров”. При выполнении операции копирования фамилий мы умышленно несколько завысили у мужчин долю предпочтения кандидата Сидоров.
Выдвигается нулевая гипотеза о том, что признаки независимы. В нашем примере это означает, что пол не влияет на выбор кандидата. Проверка статистической гипотезы зависимости двух признаков производится в несколько шагов.
Шаг первый. Рассчитаем таблицу сопряженности признаков ”пол” “Кандидат”. Для этого будем использовать программу EXCEL “Сводная таблица”. Эта программы выбирается в меню “Данные” рис. 6.16. Макет сводной таблицы формируется перетаскиванием полей по макету таблицы (рис. 6.17). В поле данные необходимо установить способ расчета ячеек сводной таблицы (рис. 6.18). В нашем случае необходимо выбрать “Количество”.
Рис. 6.16. Мастер сводных таблиц
Рис. 6.17. Разработка макета сводной таблицы
Рис. 6.18. Способ расчета сводной таблицы
Для того чтобы
производить расчеты со сводной таблицей
ее необходимо скопировать с использованием
команд “Вставка” – “Спецвставка” –
“Значения”. В результате получим
таблицу сопряженности признаков или
таблицу выборочных частот (рис.6.19).
Элементы таблицы выборочных частот
обозначим
(
).
Рис. 6.19. Таблица выборочных частот
Второй шаг. Вначале
произведем логические рассуждения.
Предположим, что предпочтение тем или
иным кандидатам не зависит от пола.
Тогда 33% избирателей предпочли бы
кандидата Иванова, 24% кандидата Петрова
и 43% кандидата Сидорова. Теперь определим
сколь бы собрали голосов кандидаты при
условии независимости от пола, если бы
число опрашиваемых было бы 59 (по числу
женщин). Тогда Иванова бы предпочло
человек. Аналогично можно рассчитать
все ячейки новой таблицы сопряженности
признаков. Напомним, что таблица
рассчитывается исходя из условия
независимости двух признаков. Каждый
элемент таблицы рассчитывается по
формуле (6.2):
(6.2)
Результаты расчета
сведем в таблицу, которая называется
таблицей теоретических частот (рис.
6.20). Теперь мы можем сравнить две таблицы
частот и записать критерий
для этого случая (6.3):
(6.3)
Количество степеней
свободы для
распределения в этом случае исчисляется
по формуле
.
Для нашего примера
.
Расчет выборочного значения критерия
произведен в таблице (рис. 6.20). Критическое
значение критерия определено с помощью
функции ХИ2ОБР. Поскольку выборочное
значения критерия
=26,37
больше критического значения
=5,99,
то мы должны отвергнуть гипотезу
независимости признаков. То есть, в
нашем примере мы должны признать, что
пол влияет на предпочтение кандидата,
что должно быть учтено при организации
предвыборной компании.
Рис.6.20. Расчет
критерия
для признаков ”пол” “Кандидат”
Заметим, что мы проверяли зависимость признаков, выраженных в номинальной шкале измерения. Рассмотрим пример проверки гипотезы зависимости признаков, выраженных в ранговой шкале. Для расчетов мы будем использовать данные, размещенные в столбцах X2Y2. Результаты выполнения расчетов в EXCEL приведены на рис. 6.21.
Рис.6.21. Расчет
критерия
для признаковX2Y2
Во втором примере гипотеза независимости признаков подтверждается. Так и должно быть, поскольку мы брали для проверки заведомо независимые признаки. С помощью критерия можно оценить и зависимость признаков, измеренных в непрерывной шкале отношений. Для этого сначала необходимо преобразовать данные путем выполнения операции дискретизации.