Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МТЗЕ_rus.DOC Печерская.doc
Скачиваний:
28
Добавлен:
13.04.2015
Размер:
14.33 Mб
Скачать

2 Исследование возможностей использования непараметрических критериев значимости различий двух выборок при распознавании патологических процессов

2.1 Цель работы

Изучение возможностей использования непараметрических критериев сравнения двух независимых или зависимых выборок при распознавании патологических процессов с помощью SPSS и Microsoft Excel.

2.2 Методические указания по организации самостоятельной работы студентов

При подготовке к лабораторной работе необходимо изучить особенности непараметрических тестов, применяемых для сравнения двух независимых или зависимых выборок, возможности SPSS и Microsoft Excel при проверке гипотез о положении и рассеивании [1 – 4].

Критерий Манна – Уитни (U-критерий Вилкоксона – Манна – Уитни) – непараметрический аналог t-критерия для проверки средних значений и является самым строгим из непараметрических критериев. Его применяют только в том случае, когда дисперсии выборок равны.

Назначение: проверка гипотезы о равенстве средних двух независимых выборок.

Нулевая гипотеза. Две независимые выборки принадлежат одной генеральной совокупности, их функции распределения равны. Эта гипотеза включает равенство средних и медиан.

Альтернативная гипотеза. Нулевая гипотеза неверна.

Для проверки нулевой гипотезы необходимо сформировать единую выборку, а для ее значений определить ранги (по возрастанию), при этом повторяющимся значениям присваивают средний ранг.

Для малых выборок расчетное значение критерия U определяется по формулам:

, (2.1)

, (2.2)

где R1 и R2 – суммы рангов, рассчитанные для значений, принадлежащих первой и второй выборкам соответственно;

n1 и n2 – количество наблюдений в первой и второй выборках соответственно.

Критериальное значение определяют так:

. (2.3)

Гипотеза о равенстве выборок отвергается, если , где– критическое значение статистики Манна – Уитни (табл. Б.1).

Правильность расчета U1 и U2 проверяют соотношением

. (2.4)

Пример 1. Необходимо проверить, отличаются ли показатели крови у пациентов женского и мужского пола.

Для решения задачи в первую очередь необходимо проверить является ли закон распределения выборки нормальным. Поскольку одна из выборок имеет закон распределения, отличный от нормального (рис. 2.1), мы должны использовать непараметрический критерий.

Рисунок 2.1 – Проверка выборок на нормальность закона распределения

Для этого в столбце C формируем объединенную выборку, а в столбце D формируем ранги для объединенной выборки (рис. 2.2).

Рисунок 2.2 – Формирование объединенной выборки и рангов

Далее проводим вычисления согласно таблицы 2.1.

Таблица 2.1 – Формулы для проверки критерия U -Манна – Уитни

Номер строки

Код столбца

Комментарии

Е

F

7

R1=

=СУММ(D3:D12)

Сумма рангов значений, принадлежащих первой выборке.

8

R2=

=СУММ(D13:D24)

Сумма рангов значений, принадлежащих второй выборке.

10

U1=

=ЧСТРОК(A3:A12)*ЧСТРОК(B3:B14)+ЧСТРОК(A3:A12)*(ЧСТРОК(A3:A12)+1)/2-F7

Расчетное значение критерия Манна – Уитни для первой выборки.

11

U2=

=ЧСТРОК(A3:A12)*ЧСТРОК(B3:B14)+0,5*ЧСТРОК(B3:B14)*(ЧСТРОК(B3: B14)+1)-F8

Расчетное значение критерия Манна – Уитни для второй выборки.

12

U=

=НАИМЕНЬШИЙ(F10:F11;1)

Критериальное значение Манна – Уитни.

14

U1+U2=

=F10+F11

Проверка правильности расчетов (значения в этих строках должны совпадать)

15

n1*n2=

=ЧСТРОК(A3:A12)*ЧСТРОК(B3:B14)

Результаты работы отражены на рисунке 2.3.

Рисунок 2.3 – Результаты вычислений для проверки критерия U

Поскольку количество наблюдений мало, необходимо воспользоваться таблицей распределения Манна – Уитни для принятия решения (табл. Б.1). Табличное значение для уровня значимости 0,05 и чисел степеней свободы 10 (n1) и 12 (n2) равняется 34. Поскольку рассчитанное критериальное значение U больше табличного (59 > 34), то нулевая гипотеза о равенстве средних значений показателей крови мужчин и женщин отвергается.

Одновыборочный критерий Вилкоксона (критерий знаковых рангов) является аналогом t-критерия для парных наблюдений в случае нечисловых данных или закона распределения, отличного от нормального, и применяется для связанных пар наблюдений (проверка отсутствия эффекта обработки).

Нулевая гипотеза: распределение разностей пар симметрично относительно нуля.

Альтернативная гипотеза: нулевая гипотеза неверна.

Значение критерия знаковых рангов определяется по формуле

, (2.5)

где R – сумма положительных рангов;

N – количество наблюдений в каждой выборке.

Для малых выборок (N<20), если значение R больше табличного значения критерия знаковых рангов Вилкоксона Т+ с уровнем значимости и числом степеней свободыN, нулевая гипотеза отклоняется (табл. Б.2).

Пример 2. Исследуется влияние антиагрегантной терапии на функциональную активность тромбоцитов при стабильной стенокардии. Необходимо определить, эффективно ли ее действие на тромбоцитарный тромбопластин (равны ли средние значения содержания тромбоцитарного тромбопластина в двух парных выборках)?

На первом шаге рассчитаем значение разницы между парами двух выборок (рис. 2.4).

Рисунок 2.4 – Расчет разницы между парами значений двух выборок

Определим абсолютные значения разниц. Для этого в ячейку G2 помещаем формулу «=ABS(E2)», которую затем копируем во все остальные ячейки и проранжируем полученные значения разниц (рис. 2.5).

Рисунок 2.5 – Расчет рангов для значений разницы

Сформируем вспомогательный столбец для нахождения суммы рангов, для которых соответствующая разница положительна. Для этого в ячейку I2 помещаем формулу «=ЕСЛИ (ЗНАК (Е2)=1; Н2; 0)» и копируем ее во все остальные ячейки диапазона I2:I11. В результате в столбец I помещаются значения из столбца H, если соответствующая разница в столбце Е положительна. При отрицательной разнице в ячейку столбца I помещается 0.

Найдем сумму положительных рангов. Для этого в ячейку I12 вводим формулу «=СУММ(I2:I11)=53».

Для дальнейшего использования в расчетах в ячейку I13 вводим значение количества наблюдений, которое определяется по формуле «=ЧСТРОК(В2:В11)=10».

Затем определяем критериальное значение. Для этого в ячейку I14 вводим формулу «=(I12-I13*(I13+1)/4)/(КОРЕНЬ(I13*(I13+1)*(2*I13+1)/24))».

Определяем расчетное значение уровня значимости, для чего в ячейку I15 помещаем вызов функции «=1-НОРМСТРАСП(I14)=0,000939». Результаты выполненных операций приведены на рисунке 2.6.

Рисунок 2.6 – Результаты применения одновыборочного критерия Вилкоксона

Поскольку при использовании критерия Т+ для малых выборок значение R (равное 53) больше чем критическое значение критерия Т+ (равное 47), полученное из таблицы Б.2 для числа степеней свободы 10 и уровня значимости 0,025, нулевая гипотеза о равенстве средних отвергается. Если мы воспользовались нормальной аппроксимацией для больших выборок, то полученное значение вероятности (0,000939/2=0,00047) меньше уровня значимости (0,05), поэтому гипотеза отвергается, следовательно, антиагрегантная терапия влияет на функциональную активность тромбоцитов.

Для проверки равенства дисперсий двух выборок порядковых данных или при законе распределения выборок, отличающихся от нормального, используется критерий Зигеля – Тьюки.

Нулевая гипотеза. .

Предпосылки: все случайные величины взаимно независимы.

Анализируемые выборки распределены по непрерывному распределению одного и того же вида.

Проверяем гипотезу о принадлежности двух независимых выборок к одной генеральной совокупности. Для этого формируем объединенную выборку с общим количеством наблюдений (при этом), которая упорядочивается. Затем формируем ранги таким образом, чтобы минимальные и максимальные значения получили низкие ранги, а по мере приближения к средним значениям ранги увеличивались. При этом, если наблюдений нечетное количество, то среднее наблюдение (медиана) не получает никакого ранга. Ранг 1 присваивается наименьшему значению, ранги 2 и 3 двум наибольшим, 4 и 5 – следующим наименьшим, 6 и 7 – наибольшим и т.д. Затем для каждой выборки определяем суммы присвоенных ранговR1 и R2.

Для проверки правильности расстановки рангов используют (2.6) для нечетного общего количества наблюдений и (2.7) – для четного.

, (2.6)

. (2.7)

В тех случаях, когда >9 или>2,>20, можно применять стандартную нормальную переменную:

, (2.8)

где – сумма рангов меньшей по объему выборки.

Когда , в числителе выражения (2.8) для z перед «1» знак нужно заменить с «+» на «-». Если объемы выборок отличаются, z необходимо скорректировать:

. (2.9)

По вычисленному значению z из таблицы определяем вероятность, которую, умножив на 2, получаем уровень значимости α. Если эта вероятность мала (меньше 0,05), то с доверительной вероятностью 1-α можно считать, что присутствует разница дисперсий генеральных совокупностей. Чем больше различаются выборки, тем менее надежен этот критерий.

Пример 3. Необходимо протестировать две группы пациентов на предмет значимости различия показателя СОЭ при условии, что все случайные величины взаимно независимы.

Проверим гипотезу о равенстве дисперсий. На рисунке 2.7 показаны исходные данные в столбцах A и B. Столбец D – объединенная выборка, а С – вспомогательный столбец, в котором хранится номер, показывающий, из какого исходного столбца получено данное значение. Выбираем в меню пункт «Данные» ► «Сортировка». Сортируем столбец D по возрастанию совместно со столбцом С. При этом столбец С сохранит связь с D и будет указывать, из какой выборки взяты соответствующие значения. Результат работы приведен на рисунке 2.7.

Рисунок 2.7 – Оформление исходных данных на рабочем листе Excel

В столбце Е строим ранги так, как описано выше. Далее для определения значений R1 и R2 строим два вспомогательных столбца F и G. Для этого в ячейку F2 помещаем формулу «=ЕСЛИ(C2=1;E2;0)», которую размножаем на весь столбец. В ячейку G2 вводим формулу «=ЕСЛИ(C2=2;E2;0)», которую также размножаем на весь столбец (рис. 2.8).

Затем определяем значение R1, поместив в ячейку G25 формулу «=СУММ(F2:F23)=85», а введя в ячейку G26 формулу «=СУММ(G2: G23)=146», находим R2. Для проверки правильности вычисления этих значений в ячейку G29 вводим формулу «=СУММ(G25:G26)=231», а в ячейку H29 формулу для четного общего количества наблюдений по (2.7) «=(ЧСТРОК(A2: A11)+ЧСТРОК(B2:B13))*((ЧСТРОК(A2:A11)+ЧСТРОК(B2:B13)+1)/2-1)=231». Полученные значения в обеих ячейках равны.

Рисунок 2.8 – Определение рангов

После этого рассчитываем значение z, для чего в ячейку G30 помещаем формулу «=(2*G25-ЧСТРОК(A2:A11)*(ЧСТРОК(A2:A11)+ ЧСТРОК(B2:B13) +1)+1)/(КОРЕНЬ(ЧСТРОК(A2:A11)*(ЧСТРОК(A2:A11)+ЧСТРОК(B2:B13)+1)* *ЧСТРОК(B2:B13)))= –1,12305» (рис. 2.9).

Далее рассчитываем уровень значимости α отвержения нулевой гипотезы с помощью формулы «=2*НОРМСТРАСП(G30)= 0,261418», помещая ее в ячейку G31 (рис. 2.9). Поскольку это значение (0,261418) существенно больше уровня значимости (0,05), то нулевая гипотеза о равенстве дисперсий выборок принимается.

Рисунок 2.9 – Определение значения z и уровня значимости α

2.3 Описание лабораторной установки

Для проведения лабораторной работы используется персональная ЭВМ типа IBM PC/ATX, которая позволяет автоматизировать распознавание патологических процессов с использованием непараметрических критериев значимости различий двух выборок при помощи программного средства Microsoft Excel и программы SPSS.

Основные характеристики установки:

  • процессор – Intel Celeron с частотой не ниже 1200 MGz;

  • ОЗУ – не меньше 256 Mb.

Программное средство работает в ОС Windows 2000 и больше, занимает 350 Mb дискового пространства. Для нормальной работы необходима графическая подсистема ЭВМ (дисплей и видеокарта), которая может отображать 1024х768 пикселя при 32-битной цветовой палитре.

2.4 Порядок выполнения работы и методические указания по ее выполнению

1. Запустить программу Excel, выполнив команды «Пуск» ► «Программы» ► «Microsoft Excel».

2. Создать чистую рабочую книгу, выполнив команды «Файл» ► «Создать» ► «Чистая книга».

3. Решить задачу 1 (приложение Б):

а) заполнить «Лист 1» рабочей книги исходными данными, состоящими из двух выборок, согласно своего варианта (табл. Б.3) как показано на рисунке 2.10;

Рисунок 2.10 – Расположение исходных данных на рабочем листе

б) проверить, распределены ли выборки по нормальному закону с помощью функции NORMSAMP_1.

- Для этого необходимо выполнить команды «Файл» ► «Открыть». В открывшемся диалоговом окне «Открытие документа» в строке «Папка» выбрать папку «Студент».

- Выбрать файл Excel «Метод_Шеффе. xls». Перейти в свою рабочую книгу и вызвать мастер функций Excel .В открывшемся диалоговом окне «Мастер функций» выбрать функцию «Метод_Шеффе.xls!NORMSAMP_1» и нажать «ОК».

- В появившемся диалоговом окне «Аргумент функции» в строку «R_1» ввести диапазон ячеек, содержащих выборку проверяемых значений и нажать «ОК». Повторить описанные действия для всех групп значений;

в) сформировать объединенную выборку значений (рис. 2.2);

г) определить ранги для объединенной выборки;

д) выполнить расчеты всех необходимых значений для проверки гипотезы.

- Рассчитать формулы (2.1 – 2.2).

- Определить критериальное значение U по (2.3).

- Проверить правильность расчетов по (2.4).

4. Решить задачу 1 (приложение Б) с помощью программы SPSS:

а) поместить значения объединенной выборки исследуемых переменных (п. 3.в) в поле исходных переменных пакета SPSS. Напротив значений исследуемых переменных ввести коды каждого значения (1 – для первой группы, 2 – для второй);

б) выбрать в меню «Nonparametric Tests» ► «2 Independent Samples». В появившемся окне «Two Independent Samples» установить флажок на тесте Манна – Уитни;

в) перенести переменную значений объединенной выборки в поле тестируемых переменных, а групповую переменную в поле групповых переменных и нажать «ОК». После щелчка на кнопке «Define Groups» внести коды (1 – первая группа, 2 – вторая), необходимые для идентификации групп;

г) нажать «Continue» и «ОК»;

д) проанализировать полученные результаты.

5. Решить задачу 2 (приложение Б):

а) заполнить «Лист 2» рабочей книги исходными данными согласно своего варианта (табл. Б.4);

б) рассчитать значения разницы пар двух выборок (рис. 2.4);

в) рассчитать абсолютные значения разницы пар двух выборок, используя функцию ABS;

г) проранжировать абсолютные значения разницы пар в возрастающем порядке;

д) построить вспомогательный столбец для нахождения суммы рангов, для которых соответствующая разница положительна, используя функции ЕСЛИ и ЗНАК;

е) найти сумму положительных рангов R, используя функцию СУММ;

ж) определить количество наблюдений N, используя функцию ЧСТРОК;

з) рассчитать критериальное значение Т+ по (2.5);

и) определить расчетное значение уровня значимости α;

к) по таблице Б.2 определить критическое значение Т+;

л) сравнить полученное значение Т+ с критическим и сделать вывод.

6. Решить задачу 3 (приложение Б) с помощью пакета Microsoft Excel:

а) заполнить «Лист 3» рабочей книги исходными данными согласно своего варианта (табл. Б.5);

б) сформировать вспомогательный столбец и столбец с объединенной выборкой, как показано на рисунке 2.7;

в) произвести сортировку объединенной выборки по возрастанию;

г) построить два вспомогательных столбца для определения значений R1 и R2 (рис. 2.9);

д) определить значения R1 и R2, используя функцию СУММ;

е) проверить правильность вычисления формул по (2.6) или (2.7), используя функции СУММ и ЧСТРОК;

ж) определить значение z по (2.8), используя функцию ЧСТРОК (рис. 2.9);

з) рассчитать значение α для полученного значения z;

и) сравнить полученное значение уровня значимости α с заданным α=0,05;

к) определить, с какой доверительной вероятностью можно говорить, что дисперсии выборок различны.

2.5 Содержание отчета

Отчет по лабораторной работе должен содержать: цель работы, исходные данные и результаты решения задач с оценкой полученных значений, распечатку полученных результатов, выводы.

2.6 Контрольные вопросы и задания

1. Какой из непараметрических критериев является самым строгим?

2. В каком случае применяется критерий Манна – Уитни?

3. Назовите основные этапы проверки гипотезы о равенстве средних двух независимых выборок.

4. Назовите особенности применения одновыборочного критерия Вилкоксона.

5. Какой критерий применяется для проверки равенства дисперсий двух выборок порядковых данных? Каким образом происходит формирование рангов?