
Metod(ksmd5)
.pdf
пределения «хи-квадрат» с одной степенью свободы 2 |
(1) , где – |
1 |
|
вероятность ошибки 1-го рода при принятии основной гипотезы. При
этом если |
2 |
2 |
, то связь между переменными |
xk |
и |
x j |
отсут- |
кр 1 (1) |
ствует. В противном случае значение коэффициента контингенции Ф показывает величину этой связи.
2.6. Коэффициент квадратичной сопряженности. Расчет выполнить для случая, когда число градаций (классов) по каждому признаку
xk |
и |
x j |
равно 3, то есть l p 3 . |
|
|
|
|
|
|
||||
|
2.6.1. Найти предельные значения по каждой переменной |
xk min , |
|||||||||||
x |
|
и |
x |
j min |
, x |
j max |
, т. е. интервалы изменения переменных x |
k |
и |
x |
j |
. |
|
k max |
|
|
|
|
|
|
|
|
|||||
|
2.6.2. Разбить каждый интервал [xk min , xk max ] |
и [x j min , x j max ] |
на |
три равные части. Границы для каждой переменной (для определенности возьмем xk ) вычисляются по выражениям:
N |
f 0 |
x |
k min |
; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
N |
|
x |
|
|
|
x |
k max |
x |
k min |
; |
||||
|
f 1 |
|
k min |
|
|
|
|
|||||||
|
|
|
|
|
|
|
3 |
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N |
|
x |
|
|
x |
k max |
x |
k min |
; |
|||||
|
f 2 |
|
|
k max |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
3 |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N |
f 3 |
x |
k max |
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
2.6.3. Вычислить частоты |
n fg , |
f |
1,3 |
, |
g 1,3 |
элементной таблицы сопряженности) исходя из условия
(элементы 9-
|
inc(n fg ) (N f (g 1) xik N fg ) and |
(N( f 1)g xij N fg ) . |
|
При этом для полученной матрицы |
справедливо соотношение |
3 |
3 |
|
n fg N , где N – длина выборки. |
|
f 1 g 1
2.6.4. Вычислить вектор-столбец
Sk
(сумма элементов таблицы
|
|
3 |
|
|
|
3 3 по каждой строке) по выражению |
Sk n fg , |
g 1,3 (см. |
f 1
рис. 1.1).
20

Таблица сопряженности |
|
|
||||
n11 |
|
n 12 |
|
n 13 |
вектор-столбец |
Sk1 |
n 21 |
|
n 22 |
|
n 23 |
|
Sk2 |
n 31 |
|
n 32 |
|
n 33 |
|
Sk3 |
|
|
|
|
|
|
|
|
вектор-строка |
|
|
|
||
Sj1 |
|
Sj2 |
|
Sj3 |
|
|
Рисунок 1.1 – Вычисление по таблице сопряженности
|
|
|
|
векторов |
Sk |
и |
S j |
2.6.5. Вычислить вектор-строку
|
|
S |
j |
|
(сумма элементов таблицы
3 3 по каждому столбцу) по выражению
|
3 |
S j n fg |
|
|
g 1 |
,
f |
1,3 |
(см.
рис. 1.1).
2.6.6. Вычислить нормированную матрицу R, элементы которой определяются по выражению
|
|
|
S |
S |
jg |
|
|
|
|
|
|
|
|
|
|
|
|
R fg |
kf |
|
, |
f |
1,3 |
, |
g 1,3 . |
|
|||||
|
|
N |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
2.6.7. Вычислить значение критерия |
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
n |
|
R |
|
|
|
|||
|
|
|
|
3 |
3 |
|
|
|
|
|
|
|
2 |
|
|
|
|
кр |
|
|
|
fg |
|
|
|
f g |
|
. |
|
||
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
f 1 g 1 |
|
|
R |
fg |
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|||||
2.6.8. Проверить гипотезу о независимости переменных xk и |
x j . |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
2 |
сравнивается с табличным |
|||
Для этого расчетное значение критерия кр |
|||||||||||||||
значением |
2 |
(по |
закону |
|
распределения «хи-квадрат»), |
где |
|||||||||
1 (v) |
|
v (l 1)( p 1) – число степеней свободы; l, p – число градаций по каждой переменной; – вероятность ошибки 1-го рода при принятии
основной гипотезы. Если выполняется условие |
2 |
2 |
(v) , то связь |
|
кр |
1 |
|
между переменными xk и x j отсутствует. В противном случае связь между признаками есть.
21

В рассматриваемом случае |
l p 3 |
, следовательно, |
||
02.95(4) 9.49 . Таким образом, если |
|
|
|
|
кр2 |
9.49 , |
|
|
|
то принимается гипотеза о зависимости признаков |
xk |
и x j . |
v 4 |
и |
(1.5)
2.6.9. Вычислить коэффициент квадратичной сопряженности. Если значение критерия 2кр удовлетворяет условию (1.5), то коэффици-
ент квадратичной сопряженности вычисляется по выражению
|
|
|
|
2 |
|
K |
|
|
кр |
||
|
|
||||
s |
2N |
||||
|
|
||||
|
|
|
В противном случае коэффициент
.
Ks
0
.
3. На основании проверки значимости коэффициентов сделать вывод о связи признаков между собой по значениям двух матриц свя-
зей.
4. Сохранить в файле полученные матрицы связей признаков ТЭД (с оценкой их значимости).
5. Выполнить преобразование признаков в исходной ТЭД (тип преобразования выбрать в соответствии с индивидуальным заданием).
5.1. Выполнить центрирование и нормировку признаков на «единичную дисперсию» по выражению
|
|
|
~ |
x |
x |
j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
ij |
|
|
i 1, N , |
|
|
||||
|
|
|
xij |
|
|
, |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
j |
|
|
|
|
|
|
|
где |
~ |
xij |
– нормированное и исходное значения j-го признака; x j – |
|||||||||
xij , |
||||||||||||
среднее значение j-го признака, |
вычисленное по (1.2); |
j |
– средне- |
квадратичное отклонение j-го признака, вычисленное по (1.1); N – длина выборки.
5.2. Выполнить центрирование и нормировку признаков на «единичный куб» по выражению
~ |
xij x j |
|
|
|
|
, i 1, N , |
|||||
xij |
|
||||
R j |
|||||
|
|
|
|
где ~ , – нормированное и исходное значения j-го признака; –
xij xij x j
22

среднее значение j-го признака, вычисленное по (1.2);
R j
– разброс, j-
го признака, вычисленный по (1.3).
5.3. Выполнить дихотомию признаков. При этом если значение j- го признака, измеренное у i-го объекта, находится в пределах нормы,
то |
xij 0 |
, в противном случае – |
xij 1 |
. Границы нормы по каждому |
из признаков ТЭД находятся в файле ksmd_v#.xls (соответствующие условия приведены во второй строке столбцов J÷Q). Таким образом, если условие выполняется, то xij 0 , в противном случае – xij 1 .
|
6. Вычислить матрицу близости (удаления) объектов в ТЭД. |
||||||
Элементами матрицы D являются расстояния между объектами |
i |
и |
|||||
j |
(тип расстояния выбрать в соответствии с индивидуальным зада- |
||||||
нием). |
|
|
|
|
|
|
|
|
6.1. Расстояние Евклида |
|
|
|
|
|
|
|
|
|
m |
|
|
|
|
|
( E ) |
|
(xik x jk ) |
2 |
, |
|
|
|
dij |
|
|
|
|||
|
|
|
k 1 |
|
|
|
|
где
xik
,
x jk
– значения k-го признака у объектов
i
и |
|
j
соответ-
ственно; m – общее количество признаков.
Эта мера может применяться для вычисления расстояния между объектами, описанными количественными, ординальными и номинальными признаками. Ее использование целесообразно, когда признаки однородны по смысловой нагрузке и одинаково важны для решаемой задачи.
6.2. Взвешенное расстояние Евклида
|
|
|
m |
|
|
|
dij(вE) |
wk (xik x jk )2 , |
|
|
|
|
k 1 |
|
где xik , |
x jk |
– значения k-го признака у объектов i |
и j соответ- |
|
ственно; |
wk |
– веса признаков; m – общее количество признаков. |
Весовые коэффициенты wk определяются следующим образом:
для каждого из признаков xk находится среднее значение xk по выражению (1.2);
23

из m значений
xk
находится минимальное значение
xmin
;
весовые коэффициенты
|
x |
|
|
wk |
min |
. |
|
x |
|||
|
|
||
|
k |
|
wk
определяются
по выражению
Данную меру используют, когда необходимо количественно выразить важность каких-либо признаков или выровнять масштабы неоднородных признаков.
6.3. Манхэттенское расстояние, или расстояние Минковского
где |
Ik |
ектов
( i
i |
, |
) |
j |
|
и j
|
m |
(MI ) |
Ik ( i , j ) , |
dij |
|
|
k 1 |
– разница в номерах градаций по k-му признаку у объ-
соответственно; m – общее количество признаков.
Это расстояние еще называют «городской метрикой», поскольку в данном случае расстояние между точками определяется аналогично расстоянию вдоль взаимно перпендикулярных улиц городских кварталов, то есть просто суммой разностей по соответствующим координатам. Городская метрика применяется для измерения расстояния между объектами, описанными количественными и ординальными признаками. В большинстве случаев эта мера расстояния приводит к таким же результатам, что и обычное расстояние Евклида. Однако отметим, что для нее влияние отдельных больших разностей (выбросов) уменьшается, так как они не возводятся в квадрат.
6.4. Расстояние Хэмминга
где
xik
,
x jk
|
m |
|
( H ) |
xik x jk |
|
dij |
, |
|
|
k 1 |
|
– значения k-го признака у объектов
i
и |
|
j
соответ-
ственно; m – общее количество признаков.
Данная мера используется для определения различий между объектами, задаваемыми дихотомическими признаками, и интерпретируется как число несовпадений значений признаков у рассматриваемых объектов i и j . Для дихотомических признаков эта мера расстоя-
24

ний соответствует квадрату расстояния Евклида. 6.5. Расстояние Чебышева
где
xik
,
x jk
d |
(Ч ) |
max x |
|
||
ij |
|||||
|
k 1,m |
ik |
|
||
|
|
|
|
– значения k-го признака
x jk |
, |
объектов
i
и |
|
j
соответ-
ственно; m – общее количество признаков.
Эту меру еще называют метрикой доминирования или супремумнормой. Это расстояние может оказаться полезным, когда необходимо найти различие между объектами, если они различаются по какойлибо одной лимитирующей координате (т.е. каким-либо одним измерением).
6.6. Расстояние Камберры
где
xik
,
x jk
|
m |
x |
x |
jk |
|
(К ) |
|
ik |
|
, |
|
dij |
x |
x |
|
||
|
k 1 |
jk |
|
||
|
ik |
|
|
– значения k-го признака у объектов
i
и |
|
j
соответ-
ственно; m – общее количество признаков.
Эта мера может применяться для вычисления расстояния между объектами, описанными количественными признаками. Здесь заложена идея выравнивания весов слагаемых от различных компонент в случае, если они существенно отличаются по своим абсолютным значениям. Этот подход принципиально отличается от взвешенных мер расстояний, требующих предварительного задания весовых коэффициентов, которое не всегда может быть сделано оптимально.
7.Сделать вывод о том, насколько в заданном пространстве признаков объекты отдаляются друг от друга.
8.Сохранить в файле полученную матрицу близости объектов
ТЭД.
9.Оформить отчет по лабораторной работе.
Индивидуальные задания
По 2-й цифре номера в журнале выбрать индивидуальное задание
(табл. 1.4).
25
Таблица 1.4 – Индивидуальные задания
2-я цифра номе- |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
ра в журнале |
|||||||||||
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
Имя файла |
|
|
|
|
|
|
|
|
|
|
|
ksmd_v#.txt или |
1 |
2 |
1 |
2 |
1 |
2 |
1 |
2 |
1 |
2 |
|
ksmd_v#.xls |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Мера связи |
2.2 |
2.3 |
2.4 |
2.5 |
2.6 |
2.2 |
2.3 |
2.4 |
2.5 |
2.6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
Преобразование |
5.1 |
5.2 |
5.3 |
5.3 |
– |
5.2 |
5.1 |
5.3 |
5.3 |
– |
|
признаков |
|||||||||||
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
Мера расстояния |
6.3 |
6.5 |
6.4 |
6.1 |
6.6 |
6.5 |
6.3 |
6.1 |
6.4 |
6.2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
Примечание: |
|
|
|
|
|
|
|
|
|
|
1)в файлах ksmd_v#.xls содержится вся информация о структуре
ТЭД;
2)матрицу связей признаков рассчитывать для столбцов J÷Q (см.
файл ksmd_v#.xls);
3)в файлах ksmd_v#.txt сохранены столбцы A (№ п/п), J÷Q (значения признаков), R (диагноз);
4)п. 2.1 выполняется всеми студентами, пп. 2.2–2.6 – в соответствии с индивидуальным заданием;
5)если в строке «преобразование признаков» стоит прочерк, то преобразование не выполняется.
Содержание отчета
1.Тема, цель лабораторной работы.
2.Индивидуальное задание.
3.Текст программы.
4.Матрицы связей признаков, вычисленные двумя способами (с проверкой значимости коэффициентов).
5.Матрица близости (удаленности) объектов (в отчете привести часть матрицы для первых 10 пациентов).
6.Выводы, сделанные на основании полученных матриц.
26
Контрольные вопросы
1.Что такое ТЭД? Какова ее структура? Как формируется ТЭД?
2.Что такое дихотомия и оцифровка признаков?
3.Что такое нормировка и центрирование признаков?
4.С помощью каких таблиц описывается взаимоотношение между элементами ТЭД?
5.Что такое матрица связей?
6.Что такое матрица близостей (удаленностей)?
7.Как рассчитывается коэффициент корреляции Пирсона? Для какого типа признаков он применяется?
8.Какие значения может принимать коэффициент корреляции Пирсона? Как проверить его значимость?
9.Какие коэффициенты ранговой корреляции вы знаете? Для какого типа признаков они применяются?
10.Как определить ранги количественных переменных?
11.Как рассчитывается коэффициент ранговой корреляции Спирмена в случае связанных рангов?
12.Как рассчитывается коэффициент ранговой корреляции Кендалла в случае связанных рангов?
13.Какие значения принимают коэффициенты ранговой корреляции? Как проверить их значимость?
14.В чем смысл оценки признаков в таблицах сопряженности?
15.Что такое таблица сопряженности? Как она заполняется?
16.Как рассчитывается коэффициент ассоциации?
17.Как рассчитывается коэффициент контингенции?
18.Как проверить значимость коэффициентов ассоциации и контингенции? Какие значения они принимают?
19.Как рассчитывается коэффициент квадратичной сопряженности? Какие значения он принимает?
20.Как проверить значимость коэффициента квадратичной сопряженности?
21.Какие меры расстояний между объектами вы знаете?
22.Для чего используются весовые коэффициенты при расчете некоторых видов расстояний?
27
2. ПОСТРОЕНИЕ РЕГРЕССИОННЫХ ДИАГНОСТИЧЕСКИХ МОДЕЛЕЙ
Цель работы: изучение принципов построения регрессионных диагностических моделей на основании таблицы экспериментальных данных.
Регрессионный анализ
С позиции регрессионного анализа целевой признак y рассматривается как «зависимая» переменная (как правило, количественная или ординальная), которая выражается функцией от независимых призна-
|
|
T |
|
|
ков (факторов) |
x (x1, , x p ) |
, где p – количество факторов диагно- |
||
|
стической регрессионной модели. Как правило, зависимую переменную называют откликом. Для оценки эффективности регрессионной
|
|
T |
|
|
диагностической модели вводится вектор остатков |
( 1, , N ) |
, |
||
|
который отражает влияние на y совокупности неучтенных случайных факторов либо меру достижимой аппроксимации значений целевого
признака y функциями типа y(x) .
Регрессия – это некая кривая (при одной переменной) или поверхность (при нескольких переменных), которая наилучшим образом проходит через экспериментальные точки. В зависимости от типа функциональной зависимости регрессии делятся на линейные и нели-
нейные, а по количеству факторов – однофакторные и множествен-
ные (многофакторные) [7]. Таким образом, возможны следующие виды регрессионных зависимостей:
1) |
линейная однофакторная регрессия |
||
|
|
|
y(x) a0 a1x , |
где a0 |
– свободный член; a1 – коэффициент регрессии; |
||
2) |
линейная множественная регрессия |
||
|
|
|
y(x1, , xp ) a0 a1x1 a2 x2 ap xp , |
|
|
|
|
где a j |
( j 1, p ) – коэффициенты регрессии; p – количество факторов; |
||
|
28 |

3) нелинейная однофакторная регрессия
y(x) a |
a x a |
|
x |
2 |
|
2 |
|
||||
0 |
1 |
|
|
|
где p – степень полинома;
4) нелинейная множественная регрессия Габора)
a p x |
p |
, |
|
(полином Колмогорова–
y(x |
, , x |
|
) a |
|
a x |
a |
|
|
x |
|
a |
|
x |
|
|
a |
|
x |
2 |
a |
|
x |
2 |
a |
|
|
x |
||||||||||||||||||||
p |
0 |
2 |
2 |
p |
p |
|
|
22 |
2 |
pp |
|||||||||||||||||||||||||||||||||||||
1 |
|
|
|
|
|
|
|
|
1 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
11 1 |
|
|
|
|
|
|
|
|
|
|||||||||||||||
a |
|
x x |
2 |
a |
x x |
p |
a |
23 |
x |
x |
a |
2 p |
x |
2 |
x |
p |
a |
p 1p |
x |
p 1 |
x |
p |
|
||||||||||||||||||||||||
12 |
1 |
|
|
|
|
|
|
1p 1 |
|
|
|
|
2 3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
a |
|
x |
3 |
a |
|
x |
3 |
a |
|
|
x |
3 |
a |
|
x |
2 |
x |
|
|
a |
|
|
(x |
n |
j |
n |
x |
n |
p ), |
||||||||||||||||||
|
|
222 |
2 |
ppp |
p |
|
|
2 |
|
jk p |
j |
x k |
p |
||||||||||||||||||||||||||||||||||
111 1 |
|
|
|
|
|
|
|
|
|
112 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
|
|
2 |
|
|
p |
||
|
где |
n j |
nk np p |
– количество факторов. |
|
|
В |
регрессионном |
анализе обычно полагают, что величины |
i |
( i 1, N ) независимы и случайно распределены с нулевым средним и
дисперсией |
2 |
, а оценка параметров регрессии |
|
производится с по- |
|
a |
|||||
|
мощью метода наименьших квадратов (МНК). В общем виде наилучшим образом регрессия проводится в смысле минимума функционала
I
|
N |
i |
i |
|
|
|
|
||
|
|
y |
|
2 |
|
y (x) |
|||
|
i 1 |
|
|
|
min
,
(2.1)
гдеyi , yi (x) – экспериментальные и расчетные (по уравнению ре-
грессии) значения соответственно.
Задача минимизации функционала – найти коэффициенты уравнения регрессии. Для нахождения минимума функционала (2.1) необходимо найти его первые частные производные по параметрам уравнения регрессии и приравнять их нулю. В результате решения полу-
ченной системы линейных уравнений находятся параметры a уравнения регрессии.
Систему линейных уравнений в матричном виде можно записать следующим образом:
|
|
|
Y . |
||
Xa |
||
|
|
Рассмотрим элементы X и Y для разного вида регрессий: линейная однофакторная регрессия
(2.2)
29