- •Оглавление
- •Глава 1. Факторы, повышающие риск возникновения рака молочной железы 8
- •Глава 2. Методика диагностики рака молочной железы по данным комбинированной термометрии 13
- •Глава 3. Экспертная база данных 19
- •Введение
- •На тестовой выборке 1: точность – 87,6%, специфичность – 85% и чувствительность – 88%.
- •Глава 4. Влияние физиологических факторов на данные комбинированной термометрии
- •Глава 5. Алгоритм нахождения высокоинформативных диагностических признаков
- •5.1. Выявленные ранее признаки в маммологии
- •5.2. Поиск признаков
- •Глава 6. Характеристические признаки заболеваний молочной железы
- •Глава 7. Алгоритм классификации пациенток по данным комбинированной термометрии
- •7.1. Алгоритм диагностики. Критерий классификации. Критерии оценки эффективности алгоритма
- •7.2. Минимизация набора высокоинформативных признаков для первого алгоритма
- •7.3. Проверка алгоритма диагностики на тестовых выборках
- •Для признаков из минимизированного набора были рассчитаны новые интервалы и, соответствующие им, информативности при помощи алгоритма диагностики, описанного в параграфе 7.1.
- •Также был найден новый критерий . В результате диагностики на тестовой выборке 1 была получена точность 87,6%, специфичность – 85% и чувствительность 88%.
- •В результате диагностики на независимой тестовой выборке 2 была получена чувствительность 91,5%.
- •Приложение
5.2. Поиск признаков
Введем следующие обозначения:
–температура i-ой точки j-ой молочной железы,
–температуры опорных точек j-ой молочной железы.
Тогда обучающую выборку можно представить в виде матрицы
,
где – температуры молочных желез здоровых пациенток,
–температуры молочных желез больных пациенток.
Пусть – q-я исследуемая функция, определенная на множестве векторов . Обозначим.
Значения функций представлены в виде матрицы
Признаком будем считать пару . Признак считается выполненным, если.
Для оценки каждого признака были использованы величины, которые традиционно относят к информативностям.
Информативность – количественный параметр, определяющий, насколько хорошо одна или несколько закономерностей описывают различия одной группы (искомой) от другой (отделяемой). При этом чем выше значение информативности признака классификации, тем лучше данный признак определяет различия искомой группы от отделяемой.
В качестве оценки использовались
статистическая информативность [3]:
где M – количество молочных желез класса «Здоровые», m – количество молочных желез класса «Здоровые», у которых выполнен признак; K – количество молочных желез класса «Больные», k – количество молочных желез класса «Больные», у которых выполнен признак;
эвристическая информативность:
где x – доля молочных желез класса «Здоровые», у которых выполнен признак; y - доля молочных желез класса «Больные», у которых выполнен признак;
комбинированная информативность:
Первый этап обработки заключается в вычислении множеств и построении подобласти допустимых значений. Чтобы разбить на подобласти, для каждойq-ой функции был выполнен следующий алгоритм:
Находим подобласти , где m – минимальное значение функции для множеств температурных данных пациенток,определяется по формуле:, гдеM – максимальное значение функции для множеств температурных данных пациенток.
На каждой подобласти фиксируем количество векторов такие, что.
Вычисляем статистическую информативность [3] по формуле (1).
Вычисляем эвристическую информативность по формуле (2).
Вычисляем комбинированную информативность по формуле (3).
Находим максимум среди :
который достигается на множестве .
Получаем признак: .
Использование в данном алгоритме среднего геометрического значения статистической и эвристической информативностей обусловлено рядом причин. А именно: статистическая информативность отделяет достаточно большие группы исследуемых объектов, но при этом теряется точность, эвристическая же информативность достаточно точная, но при этом отделяет маленькое количество исследуемых объектов.
Рассмотрим пример поиска высокоинформативных признаков для функции (см. Таблица 11).
Таблица 11 – Поиск высокоинформативных признаков
№ |
Признак |
|
Статистическая информативность |
Эвристическая информативность |
Комбинированная информативность |
1 |
0,8 |
10,1 |
9,0 |
9,5 | |
2 |
0,9 |
12,6 |
7,7 |
9,8 | |
3 |
1 |
9,6 |
3,2 |
5,6 | |
4 |
1,1 |
11,3 |
2,8 |
5,6 | |
5 |
1,2 |
13,1 |
2,6 |
5,8 | |
6 |
1,3 |
15,1 |
2,7 |
6,3 | |
7 |
1,4 |
16,3 |
2,5 |
6,4 | |
8 |
1,5 |
16,5 |
2,3 |
6,2 | |
9 |
1,6 |
15,2 |
2 |
5,5 |
В рассматриваемом примере в качестве признака выбираем интервал №2, так как комбинированная информативность, соответствующая ему, максимальна. Хотя статистическая и эвристическая информативности достигают своих максимальных значений на других интервалов, но исходя из приведенного алгоритма, эти интервалы не выбираются в качестве признаков.
В результате вычислительных экспериментов было предложено в качестве порога взять , и для дальнейшего рассмотрения оставлять только признаки, удовлетворяющие условию.Таким образом, были получены конкретные интервалы для признаков (см. Приложение, Таблица 1).
В качестве примера приведены некоторые высокоинформативные признаки (см. Таблица 12).
Таблица 12 – Примеры высокоинформативных признаков
№ |
Признак |
|
Диапазон измерения |
Доля молочных желез класса «Здоровые», у которых наблюдается признак |
Доля молочных желез класса «Больные», у которых наблюдается признак |
Комбинированная информативность |
1 |
-0,75 |
РТМ |
1 |
15 |
12,2 | |
2 |
-0,55 |
РТМ |
3 |
24 |
10,3 | |
3 |
0,9 |
|
3 |
23 |
9,8 | |
4 |
1,2 |
РТМ |
1 |
12 |
9,7 | |
5 |
-0,75 |
РТМ |
2 |
17 |
9,0 | |
6 |
1,3 |
РТМ |
2 |
17 |
9,0 | |
7 |
0,41 |
РТМ |
8 |
36 |
8,5 | |
8 |
-0,6 |
РТМ |
2 |
16 |
8,5 | |
9 |
-0,95 |
РТМ |
2 |
16 |
8,3 | |
10 |
0,67 |
РТМ |
2 |
15 |
7,7 |