
- •Компьютерный анализ данных
- •Введение
- •1. Способы измерения информации и представления данных.
- •1.1. Многомерные статистические данные. Наблюдения, объекты и признаки. Математическое и табличное представление многомерных данных
- •1.2. Виды измерительных шкал
- •2. Простейшие способы моделирования данных
- •2.1. Зачем нужно моделировать данные
- •2.2. Моделирование данных с помощью функции слчис()
- •2.3. Моделирование данных равномерного распределения
- •2.4. Простейший способ моделирования нормальной случайной величины
- •2.5. Моделирование законов распределения случайных величин средствами excel
- •3. Предварительный анализ данных одномерных признаков
- •3.1. Расчет средних значений и дисперсии одномерного признака
- •3.2. Диапазон значений признака
- •3.3. Расчет частотного ряда признака
- •3.4. Графическое представление данных. Гистограмма.
- •3.5. Предварительный анализ многомерных данных. Диаграмма рассеивания
- •4. Моделирование данных в более сложных случаях
- •4.1. Метод неравномерной рулетки
- •4.2. Метод отбраковки
- •4.3. Моделирование многомерного нормального распределения.
- •5. Методы преобразования данных
- •5.1. Нормировка значений признака
- •5.2. Преобразование измерительных шкал
- •6. Проверка статистических гипотез
- •6.1. Принцип решения задач проверки статистических гипотез
- •6.2. Сглаживание эмпирических данных теоретической функцией плотности ()
- •6.3. Непараметрический критерий оценки зависимости признаков ()
- •6.4. Проверка гипотезы равенства средних двух выборок (t - критерий)
- •6.5. Дисперсионный анализ –классификация по одному признаку (f - критерий)
- •6.6. Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •Задания к практическим занятиям Практическое № 1 Анкетный опрос
- •Практическое № 2 Предварительный анализ - одномерных признаков
- •Практическое № 3 Предварительный анализ - многомерных данных
- •Практическое № 4 Метод неравномерной рулетки
- •Практическое № 5 Метод отбраковки
- •Практическое № 6
- •Практическое № 7 Методы преобразования данных
- •Практическое № 8 Проверка гипотезы о согласии эмпирических данных теоретическому закону распределения.
- •Практическое № 9 Непараметрический критерий оценки зависимости признаков
- •Практическое № 10 Проверка гипотезы равенства средних двух выборок (t - критерий)
- •Практическое № 11 Дисперсионный анализ – классификация по одному признаку (f - критерий)
- •Практическое № 12 Проверка гипотезы однородности двух выборок (критерий Вилксона)
- •Список рекомендуемой литературы
- •Содержание
6.6. Проверка гипотезы однородности двух выборок (критерий Вилксона)
Критерий Вилксона служит для проверки гипотезы принадлежности двух выборок единой генеральной совокупности. Он нашел большое распространение по двум причинам. Во-первых, в силу своей простоты, во-вторых, этот критерий не предъявляет каких-либо требований к функции плотности распределения генеральной совокупности. Это критерий относится к группе, так называемых, непараметрических критериев.
Критерий Вилксона основан на вычислении рангов двух выборок. Рассмотрим методику расчета рангов на конкретном примере. В начале создадим таблицу данных. Подготовим таблицу сразу для решения двух примеров.
Первый шаг.
Сгенерируем четыре нормальных выборки
с
параметрами:
-
объемом
;
- объемом
;
-
объемом
;
-
объемом
.
Второй шаг.
Преобразуем данные столбцов
путем округления с точностью до трех
знаков. Результаты разместим в столбцах
.
Для этого будем использовать программу
ОКРУГЛ. Интерфейс программы представлен
на рис. 6.40. Полученная таблица данных
приведена на рис. 6.41. Операция округления
произведена для тог чтобы смоделировать
ситуацию приближенную к реальной. При
округлении в столбцах
будут встречаться одинаковые значения,
что соответствует реальным ситуациям.
Теперь возвратимся
к исходной постановке задачи применительно
к созданной таблице данных. Проверим
гипотезу о том, что данные двух выборок
и
можно считать принадлежащими одной
генеральной совокупности.
Рис. 6.40. Выполнение операции округления
Рис. 6.41. Таблица данных
Объединим данные
обоих выборок в единую выборку.
Объединенную выборку разместим в столбце
.
В столбце
вначале расположим значения выборки
из столбца
,
а затем из столбца
.
Всего столбец
будет содержать 100+120=220 значений. Введем
в таблицу данных три дополнительных
столбца: ”№ выб. по Z1”, “Контроль по
Z1”, “Ранг по Z1” (рис. 6.42). Первы два
столбца носят вспомогательный характер.
В столбце ”№ выб. по Z1” содержатся
номера выборок. Назначение столбца
“Контроль по Z1” поясним ниже. Для
выполнения дальнейших действий необходимо
установить на всю таблицу автофильтр.
Автофильтр устанавливается в меню“Данные”
(Фильтр-автофильтр).
Рис. 6.42. Таблица для расчета рангов (сортировка по столбцу ”№”)
Теперь приступим
к определению рангов для элементов
объединенной выборки. Для этого вначале
с помощью автофильтра отсортируем
таблицу данных по возрастанию значений
в столбце
.
Ранг значения определим, как порядковый
номер значения в упорядоченной
последовательности значений. Если бы
все значения в последовательности
были различны, то ранги значений в нашем
примере принимали бы значения натуральных
чисел от 1 до 220. Но на практике в выборке
могут в упорядоченной последовательности
могут встретиться одинаковые числа.
Для одинаковых значений ранг определяется
как среднее значение их порядковых
номеров. Для того чтобы не упустить
повторяющиеся значения и служит
вспомогательный столбец “Контроль по
Z1”. О повторяемости значений будет
сигнализировать какое-нибудь установленное
значении (в нашем случае 1). Определение
рангов по столбцу
показано на рис. 6.43. Сумма рангов по
столбцу и с неповторяющимися значениями
и с повторяющимися будет равна сумме
ряда натуральных чисел. Для последовательности
изmзначений сумму чисел можно
определить по формуле:
(6.26)
Для нашего примера:
(6.27)
Рис. 6.43. Расчет
ранга по столбцу
После расчета
рангов вернем таблицу в исходное
состояние путем сортировки по возрастанию
значений в столбце ”№”. Рассчитаем
сумму рангов по каждой из выборок
и
:
(6.28)
Сумма рангов по двум выборкам будет равна сумме рангов объединенной выборки:
(6.29)
Если принять гипотезу, что обе выборки принадлежат одной генеральной совокупности, то логично предположить, что в сортированной выборке значения обоих выборок разместятся случайным образом. Тогда математическое ожидание суммы рангов должно зависеть только от числа элементов выборки и соответственно определяться по формулам:
(6.30)
(6.31)
В теории доказывается, что при случайном распределении номеров выборок в упорядоченной объединенной выборке дисперсия суммы рангов определяется по формуле:
(6.32)
Случайные величины
и
подчиняются нормальному закону.
Пронормируем выборочные значения.
Получим выборочные значения критерия
Вилксона:
(6.33)
(6.33)
Значение критерия
для двух выборок
и
совпадают с точностью до знака. Поэтому
можно использовать одно значение
критерия. С учетом нормировки для
проверки выдвинутой гипотезы, можно
использовать стандартное нормальное
распределение
.
Поскольку критерий может принимать и
положительные значения и отрицательные
необходимо использовать двухстороннюю
критическую область. То есть, при уровне
значимости 0,05 для односторонней области
необходимо выбирать
.
Критическое значение можно определить
по справочнику стандартного нормального
распределения либо с помощью функции
НОРМОБР (рис. 6.44).
Рис. 6.44. Определение критического значения с помощью функции НОРМОБР
Выборочное значения
критерия Вилксона меньше критического
=1,96,
поэтому выдвинутую статистическую
гипотезу можно принять. Расчет параметров,
необходимых для проверки гипотезы с
помощью критерия Вилксона, представлен
на рис. 6.45.
Рис. 6.45. Расчет параметров для проверки гипотезы по критерию Вилксона