- •Оглавление
- •Глава 1. Факторы, повышающие риск возникновения рака молочной железы 8
- •Глава 2. Методика диагностики рака молочной железы по данным комбинированной термометрии 13
- •Глава 3. Экспертная база данных 19
- •Введение
- •На тестовой выборке 1: точность – 87,6%, специфичность – 85% и чувствительность – 88%.
- •Глава 4. Влияние физиологических факторов на данные комбинированной термометрии
- •Глава 5. Алгоритм нахождения высокоинформативных диагностических признаков
- •5.1. Выявленные ранее признаки в маммологии
- •5.2. Поиск признаков
- •Глава 6. Характеристические признаки заболеваний молочной железы
- •Глава 7. Алгоритм классификации пациенток по данным комбинированной термометрии
- •7.1. Алгоритм диагностики. Критерий классификации. Критерии оценки эффективности алгоритма
- •7.2. Минимизация набора высокоинформативных признаков для первого алгоритма
- •7.3. Проверка алгоритма диагностики на тестовых выборках
- •Для признаков из минимизированного набора были рассчитаны новые интервалы и, соответствующие им, информативности при помощи алгоритма диагностики, описанного в параграфе 7.1.
- •Также был найден новый критерий . В результате диагностики на тестовой выборке 1 была получена точность 87,6%, специфичность – 85% и чувствительность 88%.
- •В результате диагностики на независимой тестовой выборке 2 была получена чувствительность 91,5%.
- •Приложение
Глава 6. Характеристические признаки заболеваний молочной железы
Поиск характеристических признаков заключался в нахождении подобластей, которым принадлежат значения функции, соответствующие молочным железам одного класса, но не принадлежат значения функции, соответствующие молочным железам другого.
Находились подобласти, на которых множество значений функций , соответствующие множеству векторов , будет пустым, т.е. соответствующая эвристическая информативность бесконечна. Из этих подобластей выбиралась подобласть, содержащаямножество значений функций , которому соответствует наибольшее количество векторов .
Рассмотрим пример поиска характеристических признаков для функции (см. Таблица 13).
Таблица 13 – Поиск характеристических признаков
№ |
Признак |
|
Диапазон |
Количество молочных желез класса «Здоровые», у которых наблюдается признак |
Количество молочных желез класса «Больные», у которых наблюдается признак |
1 |
-1,95 |
РТМ |
0 |
4 | |
2 |
-1,85 |
РТМ |
0 |
4 | |
3 |
-1,75 |
РТМ |
0 |
8 | |
4 |
-1,65 |
РТМ |
0 |
12 | |
5 |
-1,55 |
РТМ |
0 |
12 | |
6 |
-1,45 |
РТМ |
0 |
14 | |
7 |
-1,35 |
РТМ |
0 |
17 | |
8 |
-1,25 |
РТМ |
0 |
26 | |
9 |
-1,15 |
РТМ |
0 |
40 | |
10 |
-1,05 |
РТМ |
0 |
47 | |
11 |
-0,95 |
РТМ |
1 |
55 |
Как видно из приведенной таблицы, первым 10 интервалам принадлежат значения , соответствующие молочным железам только класса «Больные». В интервал №11 попадают значения , соответствующие молочным железам обоих классов, поэтому останавливаем поиск и выбираем предыдущий интервал как характеристический признак.
Таким образом, были получены конкретные интервалы для признаков (см. Приложение, Таблица 2).
В качестве примера приведены некоторые характеристические признаки (см. Таблица 14).
Таблица 14 – Наиболее значимые характеристические признаки
№ |
Признак |
|
Диапазон |
Количество молочных желез класса «Здоровые», у которых наблюдается признак |
Количество молочных желез класса «Больные», у которых наблюдается признак |
1 |
0,7 |
|
0 |
68 | |
2 |
1,6 |
РТМ |
0 |
48 | |
3 |
-1,05 |
РТМ |
0 |
47 | |
4 |
1,65 |
РТМ |
0 |
39 | |
5 |
-1,15 |
РТМ |
0 |
33 | |
6 |
-0,9 |
РТМ |
0 |
31 | |
7 |
-1,25 |
РТМ |
0 |
29 | |
8 |
0,787 |
РТМ |
0 |
27 | |
9 |
-1,42 |
РТМ |
0 |
26 | |
10 |
5,24 |
ИК |
0 |
25 |
Глава 7. Алгоритм классификации пациенток по данным комбинированной термометрии
7.1. Алгоритм диагностики. Критерий классификации. Критерии оценки эффективности алгоритма
Алгоритм диагностики основан на применении группы выделяющих и характеристических признаков диагностики. Было отобрано 2 ряда признаков. Признаки, основанные на выявлении молочных желез класса «Больные» (77 признаков, см. Приложение, Таблица 1), и характеристические признаки (84 признаков, см. Приложение, Таблица 2).
Данный алгоритм состоит из пяти основных шагов:
сначала используем набор характеристических признаков: если хотя бы один из признаков выполнен, то молочную железу относим к классу «Больные».
Для неклассифицированных молочных желез:
каждой молочной железе приписываем вектор , …, , где n – количество высокоинформативных признаков:
каждой молочной железе приписываем число , гдеai равно 0 в том случае, если признак i не выполняется, иначе ai равно информативности i-го признака;
число S сравнивается с числом, являющимся "критерием классификации" – S0. В зависимости от результата сравнения, молочная железа относится либо к классу «Здоровые», либо к классу «Больные»;
Если хоть одна молочная железа отнесена к молочным железам больного пациента, то пациента диагностируем как больного, иначе как здорового.
Начнем с описания первого шага, а именно, с определения набора признаков. Экспертный анализ, подтвержденный вычислительными экспериментами, показал, что использование всех 77 (см. Приложение, Таблица 1) признаков не целесообразно. Вызвано это в первую очередь тем, что многие из них являются «родственными». После проведенного на основе экспертных оценок исключения наименее информативных "родственных" признаков, был получен следующий набор (см. Таблица 15).
Таблица 15 – Наиболее значимые характеристические признаки
№ |
Признак |
|
Диапазон измерения |
Комбинированная информативность |
1 |
-0,75 |
РТМ |
12,2 | |
2 |
-0,55 |
РТМ |
10,3 | |
3 |
0,9 |
|
9,8 | |
4 |
1,2 |
РТМ |
9,7 | |
5 |
-0,75 |
РТМ |
9,0 | |
6 |
1,3 |
РТМ |
9,0 | |
7 |
0,41 |
РТМ |
8,5 | |
8 |
-0,6 |
РТМ |
8,5 | |
9 |
-0,95 |
РТМ |
8,3 | |
10 |
0,67 |
РТМ |
7,7 | |
11 |
1,1 |
РТМ |
7,7 | |
12 |
0,69 |
РТМ |
7,1 | |
13 |
-0,4 |
РТМ |
7,0 | |
14 |
1 |
|
6,1 | |
15 |
0,36 |
ИК |
6,1 | |
16 |
0,86 |
ИК |
6,0 | |
17 |
0,69 |
РТМ |
5,9 | |
18 |
0,9 |
ИК |
5,9 | |
19 |
-0,9 |
РТМ |
5,5 | |
20 |
0,7 |
|
5,5 | |
21 |
0,63 |
ИК |
5,4 | |
22 |
0,9 |
ИК |
5,4 | |
23 |
-0,65 |
ИК |
5,3 | |
24 |
1,3 |
РТМ |
5,3 | |
25 |
-0,5 |
РТМ |
5,1 | |
26 |
1,05 |
РТМ |
5,0 | |
27 |
0,9 |
ИК |
4,8 | |
28 |
-0,34 |
РТМ |
4,6 | |
29 |
-0,65 |
РТМ |
4,5 | |
30 |
-0,71 |
ИК |
4,4 | |
31 |
0,5 |
ИК |
4,4 | |
32 |
0,4 |
ИК |
4,4 | |
33 |
1,25 |
ИК |
4,2 | |
34 |
-0,93 |
ИК |
4,2 | |
35 |
-0,1 |
ИК |
4,0 | |
36 |
-0,9 |
ИК |
3,9 | |
37 |
2,2 |
ИК |
3,9 | |
38 |
-0,48 |
РТМ |
3,9 | |
39 |
0,7 |
|
3,8 | |
40 |
-0,86 |
ИК |
3,8 | |
41 |
1,15 |
РТМ |
3,8 | |
42 |
0,8 |
|
3,8 | |
43 |
-0,39 |
РТМ |
3,8 | |
44 |
1,05 |
РТМ |
3,7 | |
45 |
-0,62 |
ИК |
3,6 | |
46 |
2,2 |
ИК |
3,5 | |
47 |
-0,8 |
ИК |
3,4 | |
48 |
2,44 |
ИК |
3,4 | |
49 |
0,34 |
РТМ |
3,3 | |
50 |
1,3 |
ИК |
3,3 | |
51 |
1,87 |
РТМ |
3,3 | |
52 |
0,5 |
|
3,1 | |
53 |
0,9 |
ИК |
3,1 | |
54 |
0,8 |
|
3,0 | |
55 |
-1,3 |
ИК |
2,9 | |
56 |
-0,31 |
ИК |
2,8 | |
57 |
0,85 |
РТМ |
2,8 | |
58 |
0,34 |
ИК |
2,7 | |
59 |
-1,28 |
ИК |
2,4 | |
60 |
1,14 |
ИК |
2,3 | |
61 |
0,61 |
РТМ |
2,3 | |
62 |
-0,66 |
РТМ |
2,3 | |
63 |
-1,3 |
ИК |
2,3 | |
64 |
-0,31 |
РТМ |
2,2 | |
65 |
-0,65 |
РТМ |
2,2 | |
66 |
0,57 |
ИК |
2,1 | |
67 |
2,7 |
ИК |
2,1 |
При использовании данного алгоритма важнейшим шагом является определение "критерия классификации", по которому будет происходить распределение молочной железы в тот или иной класс. Рассмотрим алгоритм поиска критерия классификации. Вначале определим множество значений Sj, по определенной выше формуле
, где j – номер молочной железы (в нашем случае n=67).
Для того чтобы найти S0, вначале найдем «значимые» интервалы области изменений для каждого класса. Чтобы разбить на интервалы, был выполнен следующий алгоритм:
Находим подобласти , где sl определяется по формуле:
Если значение больше значения sl, то относим молочную железу к классу «Больные», иначе к классу «Здоровые».
Если проверены все молочные железы, то находим специфичность (доля верно диагностированных здоровых):
где m – количество молочных желез класса «Здоровые», правильно классифицированных, M – общее количество молочных желез класса «Здоровые»
и чувствительность (доля позитивных результатов теста в группе больных пациенток):
где n – количество молочных желез класса «Больные», правильно классифицированных, N – общее количество молочных желез класса «Больные».
Каждой подобласти ставится в соответствие число
Находим максимум среди :
который достигается на множестве .
Выбираем критерий классификации .
В результате работы алгоритма, был найден критерий классификации .
Найденные алгоритмы проверялись на обучающей выборке из 550 молочных желез (80 молочных желез пациенток здоровых и 470 молочных желез пациенток с заболеваниями молочных желез). При проверке была достигнута точность – 89,5%, специфичность – 75% и чувствительность – 91,9%.