
- •Оглавление
- •Глава 1. Факторы, повышающие риск возникновения рака молочной железы 8
- •Глава 2. Методика диагностики рака молочной железы по данным комбинированной термометрии 13
- •Глава 3. Экспертная база данных 19
- •Введение
- •На тестовой выборке 1: точность – 87,6%, специфичность – 85% и чувствительность – 88%.
- •Глава 4. Влияние физиологических факторов на данные комбинированной термометрии
- •Глава 5. Алгоритм нахождения высокоинформативных диагностических признаков
- •5.1. Выявленные ранее признаки в маммологии
- •5.2. Поиск признаков
- •Глава 6. Характеристические признаки заболеваний молочной железы
- •Глава 7. Алгоритм классификации пациенток по данным комбинированной термометрии
- •7.1. Алгоритм диагностики. Критерий классификации. Критерии оценки эффективности алгоритма
- •7.2. Минимизация набора высокоинформативных признаков для первого алгоритма
- •7.3. Проверка алгоритма диагностики на тестовых выборках
- •Для признаков из минимизированного набора были рассчитаны новые интервалы и, соответствующие им, информативности при помощи алгоритма диагностики, описанного в параграфе 7.1.
- •Также был найден новый критерий . В результате диагностики на тестовой выборке 1 была получена точность 87,6%, специфичность – 85% и чувствительность 88%.
- •В результате диагностики на независимой тестовой выборке 2 была получена чувствительность 91,5%.
- •Приложение
Глава 6. Характеристические признаки заболеваний молочной железы
Поиск характеристических признаков заключался в нахождении подобластей, которым принадлежат значения функции, соответствующие молочным железам одного класса, но не принадлежат значения функции, соответствующие молочным железам другого.
Находились
подобласти, на которых множество значений
функций
,
соответствующие множеству векторов
,
будет пустым, т.е. соответствующая
эвристическая информативность бесконечна.
Из этих подобластей выбиралась подобласть,
содержащаямножество
значений функций
,
которому соответствует наибольшее
количество векторов
.
Рассмотрим
пример поиска характеристических
признаков для функции
(см. Таблица 13).
Таблица 13 – Поиск характеристических признаков
№ |
Признак |
|
Диапазон |
Количество молочных желез класса «Здоровые», у которых наблюдается признак |
Количество молочных желез класса «Больные», у которых наблюдается признак |
1 |
|
-1,95 |
РТМ |
0 |
4 |
2 |
|
-1,85 |
РТМ |
0 |
4 |
3 |
|
-1,75 |
РТМ |
0 |
8 |
4 |
|
-1,65 |
РТМ |
0 |
12 |
5 |
|
-1,55 |
РТМ |
0 |
12 |
6 |
|
-1,45 |
РТМ |
0 |
14 |
7 |
|
-1,35 |
РТМ |
0 |
17 |
8 |
|
-1,25 |
РТМ |
0 |
26 |
9 |
|
-1,15 |
РТМ |
0 |
40 |
10 |
|
-1,05 |
РТМ |
0 |
47 |
11 |
|
-0,95 |
РТМ |
1 |
55 |
Как
видно из приведенной таблицы, первым
10 интервалам принадлежат значения
,
соответствующие молочным железам только
класса «Больные». В интервал №11 попадают
значения
,
соответствующие молочным железам обоих
классов, поэтому останавливаем поиск
и выбираем предыдущий интервал как
характеристический признак.
Таким образом, были получены конкретные интервалы для признаков (см. Приложение, Таблица 2).
В качестве примера приведены некоторые характеристические признаки (см. Таблица 14).
Таблица 14 – Наиболее значимые характеристические признаки
№ |
Признак |
|
Диапазон |
Количество молочных желез класса «Здоровые», у которых наблюдается признак |
Количество молочных желез класса «Больные», у которых наблюдается признак |
1 |
|
0,7 |
|
0 |
68 |
2 |
|
1,6 |
РТМ |
0 |
48 |
3 |
|
-1,05 |
РТМ |
0 |
47 |
4 |
|
1,65 |
РТМ |
0 |
39 |
5 |
|
-1,15 |
РТМ |
0 |
33 |
6 |
|
-0,9 |
РТМ |
0 |
31 |
7 |
|
-1,25 |
РТМ |
0 |
29 |
8 |
|
0,787 |
РТМ |
0 |
27 |
9 |
|
-1,42 |
РТМ |
0 |
26 |
10 |
|
5,24 |
ИК |
0 |
25 |
Глава 7. Алгоритм классификации пациенток по данным комбинированной термометрии
7.1. Алгоритм диагностики. Критерий классификации. Критерии оценки эффективности алгоритма
Алгоритм диагностики основан на применении группы выделяющих и характеристических признаков диагностики. Было отобрано 2 ряда признаков. Признаки, основанные на выявлении молочных желез класса «Больные» (77 признаков, см. Приложение, Таблица 1), и характеристические признаки (84 признаков, см. Приложение, Таблица 2).
Данный алгоритм состоит из пяти основных шагов:
сначала используем набор характеристических признаков: если хотя бы один из признаков выполнен, то молочную железу относим к классу «Больные».
Для неклассифицированных молочных желез:
каждой молочной железе приписываем вектор
, …,
, где n – количество высокоинформативных признаков:
каждой молочной железе приписываем число
, гдеai равно 0 в том случае, если признак i не выполняется, иначе ai равно информативности i-го признака;
число S сравнивается с числом, являющимся "критерием классификации" – S0. В зависимости от результата сравнения, молочная железа относится либо к классу «Здоровые», либо к классу «Больные»;
Если хоть одна молочная железа отнесена к молочным железам больного пациента, то пациента диагностируем как больного, иначе как здорового.
Начнем с описания первого шага, а именно, с определения набора признаков. Экспертный анализ, подтвержденный вычислительными экспериментами, показал, что использование всех 77 (см. Приложение, Таблица 1) признаков не целесообразно. Вызвано это в первую очередь тем, что многие из них являются «родственными». После проведенного на основе экспертных оценок исключения наименее информативных "родственных" признаков, был получен следующий набор (см. Таблица 15).
Таблица 15 – Наиболее значимые характеристические признаки
№ |
Признак |
|
Диапазон измерения |
Комбинированная информативность |
1 |
|
-0,75 |
РТМ |
12,2 |
2 |
|
-0,55 |
РТМ |
10,3 |
3 |
|
0,9 |
|
9,8 |
4 |
|
1,2 |
РТМ |
9,7 |
5 |
|
-0,75 |
РТМ |
9,0 |
6 |
|
1,3 |
РТМ |
9,0 |
7 |
|
0,41 |
РТМ |
8,5 |
8 |
|
-0,6 |
РТМ |
8,5 |
9 |
|
-0,95 |
РТМ |
8,3 |
10 |
|
0,67 |
РТМ |
7,7 |
11 |
|
1,1 |
РТМ |
7,7 |
12 |
|
0,69 |
РТМ |
7,1 |
13 |
|
-0,4 |
РТМ |
7,0 |
14 |
|
1 |
|
6,1 |
15 |
|
0,36 |
ИК |
6,1 |
16 |
|
0,86 |
ИК |
6,0 |
17 |
|
0,69 |
РТМ |
5,9 |
18 |
|
0,9 |
ИК |
5,9 |
19 |
|
-0,9 |
РТМ |
5,5 |
20 |
|
0,7 |
|
5,5 |
21 |
|
0,63 |
ИК |
5,4 |
22 |
|
0,9 |
ИК |
5,4 |
23 |
|
-0,65 |
ИК |
5,3 |
24 |
|
1,3 |
РТМ |
5,3 |
25 |
|
-0,5 |
РТМ |
5,1 |
26 |
|
1,05 |
РТМ |
5,0 |
27 |
|
0,9 |
ИК |
4,8 |
28 |
|
-0,34 |
РТМ |
4,6 |
29 |
|
-0,65 |
РТМ |
4,5 |
30 |
|
-0,71 |
ИК |
4,4 |
31 |
|
0,5 |
ИК |
4,4 |
32 |
|
0,4 |
ИК |
4,4 |
33 |
|
1,25 |
ИК |
4,2 |
34 |
|
-0,93 |
ИК |
4,2 |
35 |
|
-0,1 |
ИК |
4,0 |
36 |
|
-0,9 |
ИК |
3,9 |
37 |
|
2,2 |
ИК |
3,9 |
38 |
|
-0,48 |
РТМ |
3,9 |
39 |
|
0,7 |
|
3,8 |
40 |
|
-0,86 |
ИК |
3,8 |
41 |
|
1,15 |
РТМ |
3,8 |
42 |
|
0,8 |
|
3,8 |
43 |
|
-0,39 |
РТМ |
3,8 |
44 |
|
1,05 |
РТМ |
3,7 |
45 |
|
-0,62 |
ИК |
3,6 |
46 |
|
2,2 |
ИК |
3,5 |
47 |
|
-0,8 |
ИК |
3,4 |
48 |
|
2,44 |
ИК |
3,4 |
49 |
|
0,34 |
РТМ |
3,3 |
50 |
|
1,3 |
ИК |
3,3 |
51 |
|
1,87 |
РТМ |
3,3 |
52 |
|
0,5 |
|
3,1 |
53 |
|
0,9 |
ИК |
3,1 |
54 |
|
0,8 |
|
3,0 |
55 |
|
-1,3 |
ИК |
2,9 |
56 |
|
-0,31 |
ИК |
2,8 |
57 |
|
0,85 |
РТМ |
2,8 |
58 |
|
0,34 |
ИК |
2,7 |
59 |
|
-1,28 |
ИК |
2,4 |
60 |
|
1,14 |
ИК |
2,3 |
61 |
|
0,61 |
РТМ |
2,3 |
62 |
|
-0,66 |
РТМ |
2,3 |
63 |
|
-1,3 |
ИК |
2,3 |
64 |
|
-0,31 |
РТМ |
2,2 |
65 |
|
-0,65 |
РТМ |
2,2 |
66 |
|
0,57 |
ИК |
2,1 |
67 |
|
2,7 |
ИК |
2,1 |
При использовании данного алгоритма важнейшим шагом является определение "критерия классификации", по которому будет происходить распределение молочной железы в тот или иной класс. Рассмотрим алгоритм поиска критерия классификации. Вначале определим множество значений Sj, по определенной выше формуле
,
где
j – номер молочной железы (в нашем случае
n=67).
Для того чтобы найти S0, вначале найдем «значимые» интервалы области изменений для каждого класса. Чтобы разбить на интервалы, был выполнен следующий алгоритм:
Находим подобласти
, где sl определяется по формуле:
Если значение
больше значения sl, то относим молочную железу к классу «Больные», иначе к классу «Здоровые».
Если проверены все молочные железы, то находим специфичность (доля верно диагностированных здоровых):
где m – количество молочных желез класса «Здоровые», правильно классифицированных, M – общее количество молочных желез класса «Здоровые»
и чувствительность (доля позитивных результатов теста в группе больных пациенток):
где n – количество молочных желез класса «Больные», правильно классифицированных, N – общее количество молочных желез класса «Больные».
Каждой подобласти ставится в соответствие число
Находим максимум среди
:
который
достигается на множестве
.
Выбираем критерий классификации
.
В
результате работы алгоритма, был найден
критерий классификации
.
Найденные алгоритмы проверялись на обучающей выборке из 550 молочных желез (80 молочных желез пациенток здоровых и 470 молочных желез пациенток с заболеваниями молочных желез). При проверке была достигнута точность – 89,5%, специфичность – 75% и чувствительность – 91,9%.