
- •Магистерская диссертация
- •230400.68 Информационные системы и технологии
- •230400.68.01 Информационно-управляющие системы
- •Глава 1. Информационно-аналитические технологии анализа данных……………………………………………………………………………...7 1.1 Роль и место информационно-аналитических систем…………7
- •Глава 2. Символьный анализ данных…………………………………..19
- •Глава 3. Применение символьного анализа в информационно аналитических системах......................................................................................57
- •Реферат
- •Введение
- •Глава 1. Информационно-аналитические технологии анализа данных
- •1.1 Роль и место информационно-аналитических систем
- •1.2 Технологии извлечения данных
- •Глава 2. Символьный анализ данных
- •Типы символьных данных
- •2.2 Гистограммы как символическое представление данных
- •2.2.1 Распределение данных
- •2.2.2 Обоснование гистограмм
- •2.2.3 Аппроксимация значений внутри каждого бакета
- •2.2.4 Анализ бинарных данных
- •2.2.5 Построение гистограмм
- •2.2.6 Гистограммы символьных последовательностей
- •2.4 Визуально интерактивные методы анализа данных
- •2.4.1 Теория Доу
- •2.4.2 Волновая теория Эллиотта
- •2.4.3 Метод японских свечей.
- •Глава 3. Применение символьного анализа в информационно аналитических системах
- •3.1.1 Одна зависимая переменная.
- •3.1.2 Многозначные переменная
- •3.1.3 Интервальные переменные
- •3.1.4 Гистограммные переменные
- •3.2 Кластерный анализ
- •3.2.1 Многозначные переменные
- •3.2.2 Интервальные переменные
- •3.3 Кластерный анализ в распознавании изображений
- •Заключение
- •Список использованных источников
- •Приложение а Исходный код программы распознавания изображений
Типы символьных данных
Предположим, у нас есть набор данных, состоящий из медицинских карт лиц, таких, которые могут быть сохранены в медицинской страховой компании. Предположим, что для каждого человека, есть географическая запись, например, область(север, северо-восточный, юго-восточный, и т.д.), город (Бостон, Атланта, и т.д.) так же там может присутствовать запись оказанного вида услуг стоматологических, медицинских, оптических и т.д. Там могут быть демографические переменные, такие как пол, семейное положение, возраст, братья и сестры, количество детей, работодатель. Основные медицинские переменные могут включать вес, частоту пульса, кровяное давление и т.д. Другие переменные будут включать в себя случаи определенных недугов и болезней, так же частота заболеваний, способ лечения и другие связанные переменные. Такой набор данных представлен в таблице 2.1, таблица 2.2 содержит описание переменных
. (2.2)
Записи
в таблице 2.1 - классические значения в
каждой строке содержатся значения
переменных
для одного человека. Таблица состоит
из
записей и
переменных. При таком размере, данные
могут быть проанализированы с помощью
классических методов. Когда размер n
велик или очень велик (например,
,
),
проанализировать такие данные с помощью
методов классического анализа весьма
проблематично. [7] Любой анализ такой
таблицы дает результаты, касающиеся
отдельно взятой записи (человека).
Например, нужно проанализировать, что
происходит с теми, кто обращался за
определенным видом медицинских услуг.
Таким образом, независимо от размеров
набора данных, а не отдельных лиц, можно
выделить интересующую категорию людей
по определенным критериям. Например,
можно выделить группу женщин старше 20
лет, которые пользовались услугами
стоматолога, и работать с этим набором
данных, как группой людей, а не с каждым
человеком отдельно. В этом случае вес
женщин будет списком значений
,
вместо списка данные могут быть
представлены в виде интервала
.
Так же вес может быть представлен в виде
гистограмм
,
то есть, 7/14 или 50% весят от 110 до 160 кг,
3/14 или 21,4% весят меньше, чем 110 килограмм, и 2/7 или 28,6% весят 160 кг или больше. Переменная вес для данной категории теперь имеет значение, которое представляет собой список, или интервал, или гистограмму, соответственно; и таким образом, представляет собой пример символьных данных.
Таблица 2.1 Классические данные
i |
Y1 |
Y2 |
Y3 |
Y4 |
Y5 |
Y6 |
Y7 |
Y8 |
Y9 |
Y10 |
Y11 |
Y12 |
Y13 |
Y14 |
Y15 |
1 |
Красноярск |
Т |
24 |
M |
Х |
2 |
2 |
0 |
165 |
68 |
120 |
79 |
183 |
83 |
86 |
2 |
Москва |
Т |
56 |
M |
Ж |
1 |
2 |
2 |
186 |
84 |
130 |
90 |
164 |
64 |
60 |
3 |
Омск |
Д |
48 |
M |
Ж |
1 |
3 |
2 |
175 |
73 |
126 |
82 |
229 |
109 |
122 |
4 |
Красноярск |
Т |
47 |
Ж |
Ж |
0 |
1 |
1 |
141 |
78 |
121 |
86 |
239 |
69 |
74 |
5 |
Омск |
Д |
79 |
Ж |
Ж |
0 |
3 |
4 |
152 |
84 |
150 |
88 |
187 |
67 |
64 |
6 |
Минусинск |
Т |
12 |
Ж |
Х |
2 |
1 |
0 |
73 |
69 |
126 |
85 |
109 |
98 |
107 |
7 |
Москва |
Т |
67 |
Ж |
Ж |
1 |
6 |
0 |
166 |
81 |
134 |
89 |
190 |
90 |
96 |
8 |
Омск |
O |
73 |
Ж |
Ж |
0 |
2 |
4 |
164 |
77 |
121 |
81 |
181 |
81 |
84 |
9 |
Красноярск |
Д |
29 |
M |
Ж |
2 |
0 |
2 |
227 |
62 |
124 |
81 |
214 |
94 |
101 |
10 |
Красноярск |
Д |
44 |
M |
Ж |
1 |
3 |
3 |
216 |
71 |
125 |
79 |
218 |
98 |
107 |
11 |
Москва |
Д |
54 |
M |
Х |
1 |
5 |
0 |
213 |
57 |
118 |
88 |
189 |
69 |
66 |
12 |
Кемерово |
Т |
12 |
Ж |
Х |
2 |
2 |
0 |
75 |
69 |
115 |
81 |
153 |
54 |
45 |
13 |
Омск |
Т |
73 |
Ж |
Ж |
0 |
3 |
1 |
152 |
58 |
123 |
82 |
188 |
87 |
93 |
14 |
Омск |
Д |
48 |
M |
Ж |
0 |
2 |
4 |
206 |
73 |
113 |
72 |
264 |
72 |
62 |
15 |
Кемерово |
O |
79 |
Ж |
Ж |
0 |
3 |
3 |
153 |
72 |
106 |
78 |
118 |
40 |
35 |
Продолжение таблицы 2.1
16 |
Кемерово |
Д |
20 |
M |
Х |
2 |
0 |
1 |
268 |
79 |
123 |
80 |
205 |
85 |
89 |
17 |
Новосибирск |
Д |
20 |
Ж |
Х |
2 |
4 |
0 |
157 |
75 |
116 |
87 |
180 |
60 |
52 |
18 |
Москва |
Д |
17 |
M |
Х |
2 |
2 |
0 |
161 |
69 |
114 |
78 |
169 |
49 |
39 |
19 |
Москва |
Д |
31 |
M |
Ж |
1 |
3 |
2 |
183 |
81 |
118 |
84 |
185 |
66 |
62 |
20 |
Москва |
Т |
83 |
M |
Ж |
0 |
3 |
1 |
128 |
80 |
108 |
80 |
224 |
48 |
65 |
21 |
Москва |
Т |
20 |
M |
Х |
1 |
3 |
0 |
182 |
68 |
114 |
76 |
150 |
51 |
40 |
22 |
Москва |
Т |
85 |
Ж |
Ж |
0 |
3 |
2 |
161 |
73 |
122 |
76 |
185 |
83 |
89 |
23 |
Москва |
Д |
66 |
Ж |
Х |
0 |
4 |
3 |
166 |
66 |
126 |
87 |
218 |
98 |
108 |
24 |
Москва |
Т |
6 |
M |
Х |
2 |
1 |
0 |
35 |
72 |
114 |
76 |
136 |
52 |
28 |
25 |
Новосибирск |
Т |
24 |
M |
Ж |
2 |
1 |
1 |
177 |
81 |
111 |
82 |
149 |
51 |
39 |
26 |
Красноярск |
Д |
76 |
M |
Ж |
0 |
5 |
2 |
192 |
77 |
115 |
73 |
173 |
53 |
44 |
27 |
Кемерово |
O |
57 |
M |
Х |
1 |
3 |
2 |
159 |
72 |
114 |
75 |
234 |
131 |
157 |
28 |
Омск |
Т |
11 |
Ж |
Х |
2 |
2 |
0 |
73 |
62 |
118 |
80 |
96 |
56 |
43 |
29 |
Красноярск |
Т |
27 |
Ж |
Ж |
2 |
2 |
1 |
124 |
70 |
114 |
72 |
167 |
67 |
63 |
30 |
Омск |
Д |
43 |
Ж |
M |
2 |
4 |
4 |
148 |
66 |
135 |
97 |
172 |
52 |
43 |
31 |
Омск |
Т |
53 |
Ж |
Х |
1 |
0 |
3 |
165 |
65 |
135 |
96 |
236 |
134 |
161 |
32 |
Москва |
Т |
14 |
M |
Х |
2 |
1 |
0 |
132 |
66 |
125 |
87 |
149 |
51 |
39 |
33 |
Зеленогорск |
Д |
29 |
Ж |
Ж |
1 |
0 |
1 |
153 |
70 |
133 |
92 |
217 |
97 |
106 |
34 |
Сосновоборск |
Т |
84 |
M |
Ж |
0 |
4 |
1 |
239 |
85 |
114 |
75 |
229 |
126 |
150 |
35 |
Москва |
Т |
52 |
M |
Ж |
0 |
4 |
1 |
206 |
63 |
125 |
86 |
236 |
134 |
161 |
36 |
Железногорск |
O |
86 |
M |
Ж |
0 |
3 |
3 |
184 |
72 |
114 |
72 |
152 |
53 |
42 |
37 |
Петербург |
Т |
23 |
Ж |
Х |
2 |
1 |
0 |
138 |
71 |
125 |
85 |
197 |
96 |
105 |
38 |
Иркутск |
Т |
51 |
M |
Ж |
2 |
2 |
2 |
172 |
81 |
119 |
78 |
172 |
73 |
71 |
39 |
Иркутск |
Т |
70 |
M |
Ж |
1 |
6 |
3 |
183 |
75 |
114 |
74 |
151 |
52 |
42 |
40 |
Петербург |
Т |
65 |
M |
Ж |
0 |
4 |
2 |
191 |
84 |
120 |
80 |
175 |
75 |
75 |
41 |
Кемерово |
Т |
82 |
M |
Ж |
0 |
3 |
4 |
201 |
79 |
123 |
84 |
188 |
87 |
93 |
42 |
Петербург |
Т |
60 |
M |
Х |
0 |
4 |
0 |
175 |
74 |
117 |
76 |
163 |
63 |
58 |
43 |
Москва |
Т |
48 |
M |
Ж |
1 |
4 |
1 |
187 |
88 |
132 |
98 |
182 |
82 |
86 |
Окончание таблицы 2.1
44 |
Иркутск |
Т |
29 |
M |
Ж |
1 |
1 |
1 |
166 |
59 |
122 |
82 |
178 |
78 |
79 |
45 |
Ижевск |
Т |
21 |
Ж |
Ж |
2 |
2 |
1 |
124 |
72 |
119 |
79 |
169 |
70 |
67 |
46 |
Краснодар |
Т |
81 |
Ж |
Ж |
0 |
5 |
3 |
161 |
79 |
128 |
89 |
210 |
109 |
124 |
47 |
Владивосток |
Д |
70 |
Ж |
Ж |
0 |
3 |
2 |
178 |
72 |
119 |
78 |
230 |
110 |
124 |
48 |
Курган |
Т |
27 |
Ж |
Ж |
2 |
0 |
0 |
113 |
77 |
121 |
80 |
179 |
79 |
80 |
49 |
Норильск |
Т |
56 |
Ж |
Ж |
2 |
4 |
1 |
129 |
76 |
119 |
81 |
172 |
72 |
71 |
50 |
Иркутск |
Т |
64 |
M |
Х |
1 |
2 |
0 |
194 |
81 |
128 |
89 |
210 |
109 |
124 |
51 |
Иркутск |
Т |
87 |
Ж |
Ж |
0 |
5 |
2 |
157 |
88 |
128 |
88 |
171 |
71 |
70 |
Таблица 2.1 Классические данные
i |
Y16 |
Y17 |
Y18 |
Y19 |
Y20 |
Y21 |
Y22 |
Y23 |
Y24 |
Y25 |
Y26 |
Y27 |
Y28 |
Y29 |
Y30 |
1 |
2,21 |
88 |
92 |
16 |
1,4 |
12 |
21 |
69 |
5,2 |
14,2 |
43,6 |
2,32 |
Н |
Н |
0 |
2 |
2,55 |
69 |
101 |
16 |
0,8 |
20 |
22 |
7 |
4,6 |
13,5 |
39,9 |
2,44 |
Н |
Н |
1 |
3 |
2,1 |
114 |
80 |
17 |
1,4 |
13 |
24 |
7,7 |
4,9 |
14,1 |
44,2 |
2,73 |
Д |
Н |
1 |
4 |
3,45 |
44 |
90 |
15 |
1,1 |
14 |
20 |
6,7 |
4,6 |
13,9 |
40,7 |
2,17 |
Д |
0 |
0 |
5 |
2,79 |
72 |
103 |
18 |
0,9 |
20 |
27 |
7,3 |
4,8 |
11,6 |
36,1 |
3,05 |
Н |
0 |
0 |
6 |
1,11 |
105 |
108 |
14 |
0,8 |
18 |
17 |
6,2 |
4,3 |
12,2 |
36 |
1,79 |
Н |
0 |
0 |
7 |
2,12 |
95 |
91 |
17 |
1 |
17 |
24 |
7,2 |
4,6 |
13,4 |
42,3 |
2,65 |
Д |
6 |
0 |
8 |
2,24 |
86 |
112 |
19 |
0,9 |
22 |
29 |
8 |
4 |
14,9 |
43,6 |
3,32 |
Н |
0 |
0 |
9 |
2,28 |
99 |
89 |
18 |
1 |
18 |
27 |
7,8 |
4,7 |
15 |
43,4 |
3,13 |
Н |
0 |
0 |
10 |
2,23 |
103 |
83 |
18 |
1 |
18 |
27 |
7,8 |
4,5 |
12,4 |
37,1 |
3,12 |
Д |
Н |
2 |
11 |
2,75 |
74 |
100 |
28 |
0,3 |
90 |
53 |
11,5 |
4,3 |
14,8 |
42,6 |
6,32 |
Н |
Н |
0 |
12 |
2,83 |
58 |
119 |
20 |
1 |
19 |
31 |
8,3 |
4,4 |
14,3 |
40,7 |
3,59 |
Н |
0 |
0 |
13 |
2,15 |
93 |
69 |
16 |
1,2 |
13 |
21 |
6,9 |
4,6 |
12,9 |
37,1 |
2,35 |
Н |
0 |
0 |
14 |
3,69 |
49 |
91 |
14 |
1,2 |
11 |
16 |
6,1 |
5 |
12,9 |
40,5 |
1,67 |
Н |
Н |
0 |
15 |
2,95 |
23 |
82 |
19 |
0,9 |
20 |
30 |
8,1 |
4,1 |
13,6 |
43,3 |
3,4 |
Н |
0 |
0 |
Продолжение таблицы 2.1
16 |
2,4 |
90 |
71 |
19 |
1,3 |
14 |
28 |
7,9 |
4,2 |
13,5 |
39,4 |
3,21 |
Н |
Н |
0 |
17 |
3,01 |
65 |
101 |
17 |
1 |
16 |
23 |
7,2 |
5,1 |
13 |
40,8 |
2,61 |
Н |
0 |
0 |
18 |
3,45 |
54 |
96 |
17 |
1 |
16 |
23 |
7,2 |
4,2 |
13,1 |
40,7 |
2,61 |
Н |
Н |
0 |
19 |
2,82 |
71 |
146 |
18 |
0,7 |
24 |
28 |
7,8 |
4,8 |
13,2 |
38,2 |
3,14 |
Н |
Н |
0 |
20 |
4,66 |
38 |
111 |
15 |
1 |
14 |
18 |
6,4 |
4,7 |
13,6 |
41,7 |
1,94 |
Д |
Н |
3 |
21 |
2,94 |
55 |
58 |
13 |
1,2 |
11 |
14 |
5,8 |
4 |
13,7 |
40,7 |
1,43 |
Н |
Н |
0 |
22 |
2,19 |
90 |
96 |
8 |
0,9 |
10 |
17 |
3,9 |
4,2 |
13,1 |
36,8 |
7,19 |
Н |
0 |
0 |
23 |
2,22 |
103 |
85 |
18 |
1,4 |
13 |
26 |
7,6 |
4,2 |
13,4 |
38 |
2,98 |
Н |
4 |
0 |
24 |
2,6 |
41 |
96 |
16 |
1,2 |
13 |
20 |
6,8 |
4,5 |
15,4 |
45,2 |
2,25 |
Н |
Н |
0 |
25 |
2,96 |
55 |
72 |
19 |
0,8 |
24 |
30 |
8,2 |
3,8 |
14,6 |
45,4 |
3,48 |
Н |
Н |
0 |
26 |
3,27 |
58 |
97 |
17 |
1,3 |
13 |
23 |
7,2 |
4,6 |
12,4 |
37,1 |
2,6 |
Н |
Н |
0 |
27 |
1,78 |
139 |
88 |
17 |
0,8 |
22 |
24 |
7,2 |
5 |
13 |
37,5 |
2,65 |
Н |
Н |
0 |
28 |
1,71 |
56 |
136 |
20 |
0,8 |
25 |
31 |
7,4 |
4,6 |
13,6 |
41 |
3,59 |
Н |
0 |
0 |
29 |
2,49 |
72 |
104 |
13 |
0,7 |
20 |
15 |
5,9 |
4,7 |
13,7 |
41,4 |
1,53 |
Н |
0 |
0 |
30 |
3,31 |
57 |
82 |
17 |
0,8 |
21 |
25 |
8,3 |
4,2 |
11,7 |
34 |
2,83 |
Д |
3 |
0 |
31 |
1,76 |
141 |
102 |
9 |
1 |
9 |
4 |
7 |
4,6 |
11,2 |
33,9 |
2,18 |
Н |
1 |
0 |
32 |
2,96 |
54 |
120 |
20 |
1,1 |
18 |
32 |
8,4 |
5,3 |
12,1 |
38,7 |
3,67 |
Н |
Н |
0 |
33 |
2,23 |
102 |
99 |
25 |
1,1 |
23 |
45 |
10,3 |
4,6 |
14,3 |
41,4 |
5,29 |
Н |
0 |
0 |
34 |
1,81 |
134 |
113 |
9 |
1,1 |
8 |
4 |
4,3 |
4,8 |
12,3 |
37,6 |
2,43 |
Д |
Н |
5 |
35 |
1,77 |
14 |
114 |
16 |
1,2 |
13 |
22 |
4,4 |
4,4 |
12,9 |
37 |
0,15 |
Н |
Н |
0 |
36 |
2,88 |
57 |
92 |
18 |
1,2 |
15 |
27 |
6,6 |
4,2 |
15,7 |
49,9 |
3,11 |
Н |
Н |
0 |
37 |
2,05 |
102 |
70 |
20 |
1,4 |
15 |
33 |
8,6 |
4,1 |
14,4 |
40,7 |
3,78 |
Н |
0 |
0 |
38 |
2,38 |
77 |
105 |
17 |
1,3 |
13 |
23 |
7,2 |
4,8 |
13,5 |
39,3 |
2,6 |
Н |
Н |
0 |
39 |
2,9 |
56 |
79 |
14 |
0,7 |
21 |
17 |
6,3 |
5,2 |
12,3 |
36,5 |
1,86 |
Д |
Н |
2 |
40 |
2,34 |
80 |
139 |
21 |
1,3 |
16 |
34 |
8,8 |
4,5 |
14,6 |
43,8 |
3,97 |
Н |
Н |
0 |
Окончание таблицы 2.1
41 |
2,15 |
93 |
111 |
18 |
0,8 |
21 |
26 |
7,5 |
4,6 |
14,5 |
44,6 |
2,91 |
Н |
Н |
0 |
42 |
2,58 |
68 |
112 |
12 |
1,2 |
9 |
10 |
5,2 |
4,7 |
13,4 |
38,7 |
0,91 |
Н |
Н |
0 |
43 |
2,23 |
87 |
95 |
18 |
0,8 |
23 |
27 |
7,8 |
4,3 |
12,4 |
37,3 |
3,13 |
Н |
Н |
0 |
44 |
2,29 |
83 |
77 |
22 |
1,5 |
15 |
38 |
9,3 |
4,3 |
13,5 |
38,9 |
4,43 |
Н |
Н |
0 |
45 |
2,43 |
74 |
103 |
14 |
1 |
14 |
15 |
6 |
4,9 |
13,5 |
43,1 |
1,6 |
Н |
0 |
0 |
46 |
1,93 |
115 |
86 |
15 |
0,6 |
23 |
19 |
7,8 |
4,5 |
11,3 |
32,9 |
2,06 |
Д |
3 |
0 |
47 |
2,09 |
115 |
87 |
12 |
1,2 |
10 |
10 |
5,3 |
4,4 |
12,5 |
39,1 |
8,88 |
Д |
1 |
1 |
48 |
2,27 |
84 |
101 |
6 |
1 |
6 |
8 |
3,1 |
4,2 |
14,6 |
40,9 |
2,99 |
Н |
0 |
0 |
49 |
2,38 |
77 |
99 |
14 |
1,4 |
10 |
16 |
6,1 |
4,7 |
13,9 |
40,3 |
1,69 |
Д |
0 |
4 |
50 |
1,93 |
115 |
88 |
19 |
1,1 |
17 |
28 |
7,9 |
5 |
15,3 |
49,1 |
3,23 |
Н |
Н |
0 |
51 |
2,4 |
76 |
87 |
19 |
1 |
19 |
28 |
7,9 |
4,6 |
13,9 |
44,4 |
7,14 |
Н |
0 |
0 |
Таблица 2.2 Названия переменных
Yi |
Описание |
Y1 |
Город |
Y2 |
Тип услуг: Дантист(Д), Терапевт(Т), Окулист(О) |
Y3 |
Возраст (в годах): > 0 |
Y4 |
Пол: Мужской(M), Женский(Ж) |
Y5 |
Семейное положение: Холост (Х), Женат/Замужем (Ж) |
Y6 |
Количество родителей: 0, 1, 2 |
Y7 |
Количество братьев: 0, 1,... |
Y8 |
Количество детей: 0, 1,... |
Y9 |
Вес в килограммах: > 0 |
Y10 |
Пульс: > 0 |
Y11 |
Кровянное давление(нижнее): > 0 |
Окончание таблицы 2.2
Y12 |
Кровяное давление(верхнее): > 0 |
Y13 |
Холестерин: > 0 |
Y14 |
HDL Уровень холестерина: > 0 |
Y15 |
LDL Уровень холестерина: > 0 |
Y16 |
Отношение = Холестерин / ЛПВП Уровень: > 0 |
Y17 |
Уровень триглицеридов: > 0 |
Y18 |
Уровень глюкозы: > 0 |
Y19 |
Показатель карбамида: > 0 |
Y20 |
Уровень креатина: > 0 |
Y21 |
Отношение = Карбамид /креатин: > 0 |
Y22 |
ALT Уровень: > 0 |
Y23 |
Показатель лейкоцитов: > 0 |
Y24 |
Показатель эритроцитов: > 0 |
Y25 |
Гемоглобин: > 0 |
Y26 |
Гематокрит: > 0 |
Y27 |
Щитовидная железа ТТГ: > 0 |
Y28 |
Выявлен рак: Да (Д), Нет (Н) |
Y29 |
Рак молочной железы # лечение: 0, 1,..., нет (Н) |
Y30 |
Рак легких # Лечение: 0, 1, ... |
Таблица 2.1 содержит три типа медицинских услуг Y2 = {дантист, терапевт, окулист} и два пола Y4 = {мужчины, женщины}, что дает в общей сложности 3 × 2 = 6 возможных категорий. В таблице 2.3 приводятся агрегированные данные в соответствии этим категориям для переменных
(2.3)
Таблица 2.3 Символьные данные
|
Тип услуг x Пол
|
Города
|
|
|
дантист женщины |
{Новосибирск, Москва, Омск, Зеленогорск, Владивосток} |
5 |
|
дантист мужчины |
{Красноярск, Москва, Кемерово, Омск} |
8 |
|
окулист женщины |
{Омск, Кемерово} |
4 |
|
окулист мужчины |
{Железногорск, Кемерово} |
3 |
|
терапевт мужчины |
{Москва, Новосибирск, Сосновоборск, Иркутск, Петербург, Кемерово, Красноярск} |
15 |
|
терапевт женщины |
{Ижевск, Норильск, Курган, Краснодар, Иркутск, Петербург, Красноярск, Минусинск, Москва, Кемерово, Омск} |
16 |
Категориальная
переменная
[5] является одним значением, содержащим
имена; также ее называют качественной
переменной. Количественная
переменная
содержит одно значение которое являются
подмножеством вещественной прямой
. Иногда качественные значения могут
быть записаны в виде количественных
значений.
В
таблице 2.1, переменная Y1 = Город принимает
классические категориальные значения,
например, в первой записи
,
в третьей строке
.
Многозначной
символической переменной
называют переменную, которая, принимает
одно или несколько значений из списка
значений
.
Список возможных значений
конечен, и значения могут быть четко
заданы в виде категориальных или
количественных значений[23].
В
таблице 2.3 содержатся обобщенные данные
по типам оказанных услуг и половой
принадлежности
.
Значения переменной Y1 = Город для
категории мужчин, которые обращались
к дантисту
То
есть это мужчины, которые обращались к
дантисту проживающие в одном из этих
городов. Так же определить категорию
женщин, которые обращались к окулисту
. (2.5)
Если рассмотреть переменную Y5= семейное положение для женщин обращавшихся за помощью к окулисту и мужчин обращавшихся к дантисту увидим следующее:
(2.6)
. (2.7)
Переменная
Y6
= Количество родителей, является
количественной многозначной переменной.
определяет принимаемые значения. Мы
видим в таблице 2.2, что для мужчин,
обращавшихся к стоматологу
(2.8)
Интервально-значной символической величиной называют ту, которая принимает значения в интервале[25]
,
где
.
(2.9)
Интервал
может быть открытым или закрытым то
есть
или
.
Если
интервалы возникают в результате
агрегирования классических данных, то
символические значения
для
переменной
в категории
задаются мы получим
,
,
где
-
множество значений
,
составляющих категорию
[17].
В
символьной таблице 2.4 переменные
= Возраст,
Вес,
Пульс,
=
систолическое
давление,
=
диастолическое давление – являются
интервально-значными переменными.
Например
возраст для
(2.10)
Пусть
случайная переменная Y
принимает значения
над областью
.
Значение называется модальным,
если
оно имеет следующую форму
(2.11)
для
группы u,
где
неотрицательное значение, связанное с
и где
число значений в
.
- может быть конечным или бесконечным
числом; оно может быть категориальным
или количественным значениями.
Значения
как правило веса, вероятности, относительные
частоты и т.п., соответствующие компоненту
.
компоненты
могут быть категориальным значением,
или подмножеством вещественной прямой
,
функцией распределения, гистограммой,
моделью, или стохастической структурой,
связанной с случайной величиной
.
Пусть
область возможных значений для
многозначной случайной величины
,
. (2.12)
Тогда, модальная многозначная переменная, принимает значения, подмножества неотрицательной величины, прикрепленной к каждому значению в этой подгруппе. То есть, конкретное наблюдение, для категории , принимает форму:[46]
(2.13)
где
и где результат
и
(2.14)
Данные
символьной таблицы 2.6 является еще одним
форматом для данных, полученных из
таблицы 2.1. Рассмотрим случайную величину
= Семейное положение. Мы видим, что для
категории мужчин обращавшихся к дантисту
(2.15)
То есть доля женатых мужчин, обращавшихся к дантисту, составляет 2/3, а доля не женатых составляет 1/3. Для женщин, обращавшихся к терапевту( ) имеем:
(2.16)
Это
значит что, доля замужних женщин,
обращавшихся за помощью к терапевту,
составляет
а не замужних 2/7.
Пусть
количественная величина, которая может
принимать значения от конечного числа
непересекающихся интервалов
,
где
.
Тогда значение для группы
будет называться гистограммой
интервал-значной переменной и будет
иметь следующую форму[19]:
(2.17)
где
- конечное число интервалов
для
и
– вес для конкретного подинтервала
и
.
(2.19)
Интервалы
могут быть открытыми или закрытыми с
обоих концов.
Рассмотрим
данные о состоянии таблицы 2.6. Эти данные
получились в результате агрегации
данных таблицы 2.1. В отличие от агрегации,
представленной в таблице 2.4, в которой
содержатся интервальные данные, эта
агрегация привела значения к модальным.
Случайные
величины
= возраст,
= вес и
= холестерин - являются гистограммами
интервал-значных переменных. Рассмотрим
.
Пациенты, уровень холестерина которых
равен или больше 240, подвержены риску
сердечнососудистых заболеваний, те у
которых уровень холестерина попадает
в интервал
почти подвержены риску, те, у которых
холестерин меньше 200 полностью здоровы.
Поэтому, распределения гистограмм
значений холестерина именно этих трех
интервалов представляет интерес.
Проанализируем
мужчин обращавшихся к дантисту (
)
(2.20)
Видно,
что на гране риска заболеть
сердечнососудистыми заболеваниями
находятся 4/9, 1/9 подвержена риск, 4/9
полностью здоровы.
|
Тип услуг X пол |
Возраст |
Семейное положение |
родители |
вес |
пульс |
Систолическое давление |
Диастолическое давление |
холестерин |
|
|
Y3 |
Y5 |
Y6 |
Y9 |
Y10 |
Y11 |
Y12 |
Y13 |
|
дантист мужчины |
[17, 76] |
{Ж, Х} |
{0,1,2} |
[161, 268] |
[57, 81] |
[113, 126] |
[72, 88] |
[179, 264] |
|
дантист женщины |
[20, 70] |
{Ж, Х} |
{0,1,2} |
[148, 178] |
[66, 84] |
[116, 150] |
[78, 97] |
[172, 230] |
|
терапевт мужчины |
[6, 84] |
{Ж, Х} |
{0,1,2} |
[35, 239] |
[59, 88] |
[108, 132] |
[74, 98] |
[109, 236] |
|
терапевт женщины |
[11, 87] |
{Ж, Х} |
{0,1,2} |
[73, 166] |
[58, 88] |
[114, 135] |
[72, 96] |
[96, 239] |
|
окулист мужчины |
[57, 86] |
{Ж, Х} |
{0, 1} |
[159, 184] |
[72, 72] |
[114, 114] |
[72, 78] |
[152, 234] |
|
окулист женщины |
[73, 79] |
{Ж} |
{0} |
[153, 164] |
[72, 77] |
[106, 121] |
[78, 81] |
[118, 181] |
Таблица 2.4 Символьные данные
Таблица 2.5 Символьные модальные переменные, агрегированные из таблицы 2.1
|
Тип услуг X пол |
Возраст( ) |
Семейное положение( ) |
родители( |
вес( ) |
холестерин( ) |
|
дантист мужчины |
{[0, 40), 4/9 [40, 99], 4/9} |
{Ж, 2/3 Х, 1/3} |
{0, 2/9 1, 4/9 2, 1/3} |
{[150, 200), 4/9 [200, 275], 5/9} |
{[<200), 4/9 [200, 300), 4/9, [300], 1/9]} |
|
дантист женщины |
{[0, 40), 1/3 [40, 99], 2/3} |
{Ж, 1/2 Х 1/2} |
{0, 1/2 1, 1/16 2, 1/3} |
{[140, 160), 2/3 [160, 180], 1/3} |
{[<200), 1/2 [200, 240), 1/2} |
|
терапевт мужчины |
{[0, 20), 1/6 [20, 40), 2/89 [40, 60], 2/9 [60, 99], 7/18} |
{Х, 11/18 Х 7/18} |
{0, 1/3 1, 1/3 2, 1/3} |
{[0, 120), 1/9 [120, 180), 7/8 [180, 240], 1/2} |
{[<200), 7/9 [200, 240), 2/9} |
|
терапевт женщины |
{[0, 20), 1/7 [20,40), 2/7 [(40, 60), 3/14 [60, 99], 5/14} |
{Х, 5/7 Х, 2/7} {0, 5/14 1, 1/7 2, 1/2} |
{[50, 110), 1/7 [110, 140), 5/14 [140, 170] 1/2} |
{[<200), 11/14 [200, 240), 3/14} |
|
|
окулист мужчины |
{[40, 60), 1/2 [60, 99], 1/2} |
{Ж, 1/2 Х 1/2} |
{0, 1/2 1, 1/2} |
{[140, 160), 1/2 [160, 200], 1/2} |
{[<200), 1/2 [200, 240), 1/2} |
|
окулист женщины |
{[60, 99]} {Ж} {0} |
{[140, 160), 1/2 [160, 180] 1/4} |
{[<200)} |
|
|