Пример ROC-анализа
.docКлассификация предприятий на основе ROC-анализа
В описанной системе применяется модификация метода ROC-анализа для классификации предприятий по трем группам в зависимости от значения уровня безопасности (в классическом варианте используется для деления на две группы). Уровень ЭБ предприятия может быть высоким, средним и низким.
Пороговые значения (в виде количества баллов G, например, набранных по анкете соответствия требованиям природоохранного законодательства) в ROC-анализе позволяют классифицировать предприятия с минимальной ошибкой отнесения предприятия к определенной группе, исходя из его уровня экологической безопасности [5].
В качестве критерия принадлежности к группе предлагается использовать количество превышений предельно-допустимых концентраций (ПДК) или предельно-допустимых сбросов (ПДС) аспектов предприятия.
Входные данные:
-
Требования аудиторской компании к 3 группам ЭБ:
1 группа: R<3 2 группа: R<5, 3 группа: R≥5,
где R – количество превышений ПДК или ПДС;
-
Данные по выборке предприятий:
ri – значение величины R для i-го предприятия, ,
количество баллов Gi, набранных i-ым предприятием по анкете.
Выходные данные: определение пороговых значений s1 и s2 для классификации предприятий, при которых ошибка отнесения предприятия к первой и второй группам по уровню экологической безопасности минимальна.
Данные для ROC-анализа:
предприятия |
кол-во баллов |
количество превышение ПДК |
1 |
32 |
0 |
2 |
34 |
1 |
3 |
36 |
2 |
4 |
34 |
5 |
5 |
40 |
6 |
6 |
42 |
2 |
7 |
42 |
1 |
8 |
32 |
2 |
9 |
48 |
7 |
10 |
44 |
1 |
11 |
48 |
1 |
12 |
32 |
3 |
13 |
56 |
2 |
14 |
40 |
4 |
15 |
37 |
2 |
16 |
45 |
1 |
17 |
44 |
3 |
18 |
32 |
1 |
19 |
36 |
6 |
20 |
34 |
3 |
21 |
36 |
6 |
22 |
36 |
0 |
23 |
36 |
9 |
24 |
37 |
3 |
25 |
39 |
4 |
26 |
40 |
0 |
27 |
41 |
7 |
28 |
42 |
7 |
29 |
42 |
5 |
30 |
43 |
6 |
31 |
43 |
0 |
32 |
44 |
5 |
33 |
44 |
0 |
34 |
45 |
5 |
35 |
46 |
2 |
36 |
48 |
6 |
37 |
37 |
2 |
38 |
39 |
4 |
39 |
40 |
9 |
40 |
47 |
0 |
41 |
36 |
1 |
42 |
47 |
7 |
43 |
49 |
1 |
44 |
49 |
12 |
45 |
49 |
1 |
46 |
49 |
9 |
47 |
49 |
1 |
48 |
49 |
12 |
49 |
50 |
3 |
50 |
51 |
4 |
Составим гипотезу для определения порогового значения s1 для первой группы:
-
Если значение шкалы Gi<hj, то предприятие относится к 1 ГР (исход положительный).
-
Если значение шкалы Gi≥hj, то предприятие не относится к 1 ГР (исход отрицательный).
Проверяем гипотезу принадлежности к 1 группе для всех пороговых значений из интервала , , . Таким образом, .
Начнем расчеты с минимального порога h1=32.
Для 1 предприятия:
так как 32≥32 (Gi≥hj), и 0<3 (R<3), то =0, =0, =0, =0
Для 2 предприятия:
так как 34>32 (Gi>hj), и 1<3 (R<3), то =0, =0, =1, =0 и т.д.
Дальнейшие расчеты (для порога h1=32 )представлены в таблице 1.
Таблица 1
Порог h |
Номер предприятия |
Количество баллов G |
количество превышение ПДК R |
a |
b |
c |
d |
32 |
1 |
32 |
0 |
0 |
0 |
0 |
0 |
2 |
34 |
1 |
0 |
0 |
1 |
0 |
|
3 |
36 |
2 |
0 |
0 |
1 |
0 |
|
4 |
34 |
5 |
0 |
0 |
0 |
1 |
|
5 |
40 |
6 |
0 |
0 |
0 |
1 |
|
6 |
42 |
2 |
0 |
0 |
1 |
0 |
|
7 |
42 |
1 |
0 |
0 |
1 |
0 |
|
8 |
32 |
2 |
0 |
0 |
0 |
0 |
|
9 |
48 |
7 |
0 |
0 |
0 |
1 |
|
10 |
44 |
1 |
0 |
0 |
1 |
0 |
|
11 |
48 |
1 |
0 |
0 |
1 |
0 |
|
12 |
32 |
3 |
0 |
0 |
0 |
0 |
|
13 |
56 |
2 |
0 |
0 |
1 |
0 |
|
14 |
40 |
4 |
0 |
0 |
0 |
1 |
|
15 |
37 |
2 |
0 |
0 |
1 |
0 |
|
16 |
45 |
1 |
0 |
0 |
1 |
0 |
|
17 |
44 |
3 |
0 |
0 |
0 |
0 |
|
18 |
32 |
1 |
0 |
0 |
0 |
0 |
|
19 |
36 |
6 |
0 |
0 |
0 |
1 |
|
20 |
34 |
3 |
0 |
0 |
0 |
0 |
|
21 |
36 |
6 |
0 |
0 |
0 |
1 |
|
22 |
36 |
0 |
0 |
0 |
1 |
0 |
|
23 |
36 |
9 |
0 |
0 |
0 |
1 |
|
24 |
37 |
3 |
0 |
0 |
0 |
0 |
|
25 |
39 |
4 |
0 |
0 |
0 |
1 |
|
26 |
40 |
0 |
0 |
0 |
1 |
0 |
|
27 |
41 |
7 |
0 |
0 |
0 |
1 |
|
28 |
42 |
7 |
0 |
0 |
0 |
1 |
|
29 |
42 |
5 |
0 |
0 |
0 |
1 |
|
30 |
43 |
6 |
0 |
0 |
0 |
1 |
|
31 |
43 |
0 |
0 |
0 |
1 |
0 |
|
32 |
44 |
5 |
0 |
0 |
0 |
1 |
|
33 |
44 |
0 |
0 |
0 |
1 |
0 |
|
34 |
45 |
5 |
0 |
0 |
0 |
1 |
|
35 |
46 |
2 |
0 |
0 |
1 |
0 |
|
36 |
48 |
6 |
0 |
0 |
0 |
1 |
|
37 |
37 |
2 |
0 |
0 |
1 |
0 |
|
38 |
39 |
4 |
0 |
0 |
0 |
1 |
|
39 |
40 |
9 |
0 |
0 |
0 |
1 |
|
40 |
47 |
0 |
0 |
0 |
1 |
0 |
|
41 |
36 |
1 |
0 |
0 |
1 |
0 |
|
42 |
47 |
7 |
0 |
0 |
0 |
1 |
|
43 |
49 |
1 |
0 |
0 |
1 |
0 |
|
44 |
49 |
12 |
0 |
0 |
0 |
1 |
|
45 |
49 |
1 |
0 |
0 |
1 |
0 |
|
46 |
49 |
9 |
0 |
0 |
0 |
1 |
|
47 |
49 |
1 |
0 |
0 |
1 |
0 |
|
48 |
49 |
12 |
0 |
0 |
0 |
1 |
|
49 |
50 |
3 |
0 |
0 |
0 |
0 |
|
50 |
51 |
4 |
0 |
0 |
0 |
1 |
|
Итоговая сумма |
|
|
|
0 |
0 |
20 |
22 |
Аналогично проверяется гипотеза принадлежности ко второй группе согласно алгоритму, описанному в теории.
Гипотеза для определения порогового значения s2 для второй группы:
-
Если значение шкалы Gi<hj, то предприятие относится к 2 ГР (исход положительный).
-
Если значение шкалы Gi≥hj, то предприятие не относится к 2 ГР (исход отрицательный).
На рис.1 приведена статистическая информация проверки принадлежности предприятий для всех пороговых значений из интервала . Как видно из таблицы 1 и рисунка 1, итоговое количество истинноположительных, ложноположительных, ложноотрицательных, истинноотрициательных прогнозов предприятий, полученных при пороговом значении 32, совпадают (A-0, B-0, С-20, D-22).
Рис.1 Статистическая информация по ROC-анализу
На рис. 2 представлены графики ROC-кривых для первой и второй группы безопасности. Из рисунка видно, что шкала, используемая для получения итогового количества баллов по анкете, не достаточно хорошо подходит для выявления предприятий, относящихся как к первому, так и ко второму классу безопасности.
Рис.2 Графики ROC-кривых
Пороговое значение между первой и второй группой 36, чувствительность = 20%, специфичность = 94, 74%, между второй и третьей - 49, чувствительность = 95%, специфичность = 5,26%.