Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Диплом_v_7_3.docx
Скачиваний:
8
Добавлен:
25.03.2016
Размер:
359.22 Кб
Скачать

5.2. Поиск признаков

Введем следующие обозначения:

–температура i-ой точки j-ой молочной железы,

–температуры опорных точек j-ой молочной железы.

Тогда обучающую выборку можно представить в виде матрицы

,

где – температуры молочных желез здоровых пациенток,

–температуры молочных желез больных пациенток.

Пусть – q-я исследуемая функция, определенная на множестве векторов . Обозначим.

Значения функций представлены в виде матрицы

Признаком будем считать пару . Признак считается выполненным, если.

Для оценки каждого признака были использованы величины, которые традиционно относят к информативностям.

Информативность – количественный параметр, определяющий, насколько хорошо одна или несколько закономерностей описывают различия одной группы (искомой) от другой (отделяемой). При этом чем выше значение информативности признака классификации, тем лучше данный признак определяет различия искомой группы от отделяемой.

В качестве оценки использовались

    • статистическая информативность [3]:

где M – количество молочных желез класса «Здоровые», m – количество молочных желез класса «Здоровые», у которых выполнен признак; K – количество молочных желез класса «Больные», k – количество молочных желез класса «Больные», у которых выполнен признак;

    • эвристическая информативность:

где x – доля молочных желез класса «Здоровые», у которых выполнен признак; y - доля молочных желез класса «Больные», у которых выполнен признак;

  • комбинированная информативность:

Первый этап обработки заключается в вычислении множеств и построении подобласти допустимых значений. Чтобы разбить на подобласти, для каждойq-ой функции был выполнен следующий алгоритм:

  1. Находим подобласти , где m – минимальное значение функции для множеств температурных данных пациенток,определяется по формуле:, гдеM – максимальное значение функции для множеств температурных данных пациенток.

  2. На каждой подобласти фиксируем количество векторов такие, что.

  3. Вычисляем статистическую информативность [3] по формуле (1).

  4. Вычисляем эвристическую информативность по формуле (2).

  5. Вычисляем комбинированную информативность по формуле (3).

  6. Находим максимум среди :

который достигается на множестве .

  1. Получаем признак: .

Использование в данном алгоритме среднего геометрического значения статистической и эвристической информативностей обусловлено рядом причин. А именно: статистическая информативность отделяет достаточно большие группы исследуемых объектов, но при этом теряется точность, эвристическая же информативность достаточно точная, но при этом отделяет маленькое количество исследуемых объектов.

Рассмотрим пример поиска высокоинформативных признаков для функции (см. Таблица 11).

Таблица 11 – Поиск высокоинформативных признаков

Признак

Статистическая информативность

Эвристическая информативность

Комбинированная информативность

1

0,8

10,1

9,0

9,5

2

0,9

12,6

7,7

9,8

3

1

9,6

3,2

5,6

4

1,1

11,3

2,8

5,6

5

1,2

13,1

2,6

5,8

6

1,3

15,1

2,7

6,3

7

1,4

16,3

2,5

6,4

8

1,5

16,5

2,3

6,2

9

1,6

15,2

2

5,5

В рассматриваемом примере в качестве признака выбираем интервал №2, так как комбинированная информативность, соответствующая ему, максимальна. Хотя статистическая и эвристическая информативности достигают своих максимальных значений на других интервалов, но исходя из приведенного алгоритма, эти интервалы не выбираются в качестве признаков.

В результате вычислительных экспериментов было предложено в качестве порога взять , и для дальнейшего рассмотрения оставлять только признаки, удовлетворяющие условию.Таким образом, были получены конкретные интервалы для признаков (см. Приложение, Таблица 1).

В качестве примера приведены некоторые высокоинформативные признаки (см. Таблица 12).

Таблица 12 – Примеры высокоинформативных признаков

Признак

Диапазон измерения

Доля молочных желез класса «Здоровые», у которых наблюдается признак

Доля молочных желез класса «Больные», у которых наблюдается признак

Комбинированная информативность

1

-0,75

РТМ

1

15

12,2

2

-0,55

РТМ

3

24

10,3

3

0,9

3

23

9,8

4

1,2

РТМ

1

12

9,7

5

-0,75

РТМ

2

17

9,0

6

1,3

РТМ

2

17

9,0

7

0,41

РТМ

8

36

8,5

8

-0,6

РТМ

2

16

8,5

9

-0,95

РТМ

2

16

8,3

10

0,67

РТМ

2

15

7,7

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]