Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методы и технологии генерации системного знания

.pdf
Скачиваний:
48
Добавлен:
03.02.2021
Размер:
1.37 Mб
Скачать

Каждый показатель в реконструкции актуального состояния системы детерминирован определенными системными механизмами, которые формируют уровень его значения и предопределенность этого уровня в конкретном актуальном состоянии, а также отвечают за потенциал его изменчивости

(табл. 5.5).

 

 

 

 

 

Таблица 5.5

Реконструкция актуального состояния объекта GSM159785 (фрагмент)

 

 

 

 

 

 

Показатель

Уровень

Предопреде-

 

Класс механизмов

1-й

2-й

3-й

 

значения

ленность

1375599_at

15

Н

G85779/LR

G75599/HR

G74011/HL, G73256/HL

 

 

 

 

G89389/LR

 

 

 

 

 

 

G71936/LR, G74342/HL

1397405_at

4

Н

G73557/LL

G97405/LR, G85276/HR

 

 

 

 

 

G88213/HR, G73256/HL

 

 

 

G73557/LL

G85439/HR

G71936/LR, G74342/HL

1371123_x_at

10

Д

G85349/HR

G74332/LL

G74011/HL, G75901/HL

 

 

 

G75554/HR

G72377/LL

G71123/HL, G88213/HR

 

 

 

 

 

G68619/HL

 

 

 

G73557/LL

 

G74342/HL, G77945/LL

1371642_at

9

Н

G85349/HR

G89389/LR

G77459/HL, G75633/HL

G96713/HR

G72377/LL

G94383/HR, G71123/HL

 

 

 

 

 

 

G75554/HR

 

G74470/LR, G88213/HR

 

 

 

G73557/LL

G88864/LL

G71936/LR, G75633/HL

 

 

 

G97551/HR

1397551_at

15

Д

G98472/HL

G89389/LR

G75901/HL, G73256/HL

 

 

 

G81683/LR

G74332/LL

G68619/HL

 

 

 

G85349/HR

 

G71936/LR, G77945/LL

1370979_at

7

П

G98472/HL

G72377/LL

G75901/HL, G71123/HL

 

 

 

G81683/LR

 

G88213/HR, G68619/HL

Работу аналитического ядра ФС по производству системного знания завершает технология системного дизайна. Полученное системное знание представлено в чисто абстрактных формах, лишенных какой-либо предметной конкретности. Внешние формы представления этого знания содержат только условные обозначения показателей состояния системы и коды объектов наблюдения.

6. ТЕХНОЛОГИЯ ОФОРМЛЕНИЯ ЗАКОНОМЕРНОСТЕЙ

6.1. Обзор методов технологии

Технология оформления закономерностей является элементом конструктивного компонента информационной технологии ФС и работает с системным знанием, полученным технологиями аналитического ядра. Техноло-

80

гия актуализирует ресурсы знания, формирует, организует и предоставляет ресурсы решения, необходимые для исследования конкретных целевых системных проблем. Ресурсы решения имеют нормативный формат, создаются автоматически на основе универсальных методов, учитывают специфику предметной области.

При работе с данными технология учитывает особенности эмпирических описаний систем: данные повторных экспериментов с сохранением параметров экспериментов; пропуски данных; малую представительность данных.

Для выявления закономерностей применяются форматы, в которых элементы знания представляются в специальных шкалах: шкале восстановления пропусков данных, шкале агрегированных уровней, шкале обобщенных уровней, 5-балльной шкале уровней, 3-балльной шкале уровней.

В реконструкциях состояний уровень значения каждого показателя детерминирован системными механизмами. На этом основана шкала восстановления пропусков данных, позволяющая установить уровень значения показателя при отсутствии его значения в эмпирическом описании системы.

Реконструкции состояний моделируют реальные значения показателей уровнями их значений на 17-пунктной шкале преобладания уровня. Шкала агрегированных уровней применяется для свертки значений показателя, полученных при одинаковых условиях эксперимента (табл. 6.1).

 

 

 

 

Таблица 6.1

Пример агрегирования уровней значений показателя

 

 

 

 

 

 

Условие

Точка

Значение

Уровень

Агрегированное

эксперимента

эксперимента

показателя

значения

значение

 

 

1

−0.673729

1

 

 

1

2

−0.528518

3

2

 

3

−0.357817

4

 

 

 

 

 

4

−0.164461

6

 

 

 

1

−0.021071

9

 

 

2

2

0.197102

11

8

 

3

0.240727

14

 

 

 

 

 

4

0.511993

13

 

 

Набор, включающий несколько разных уровней значений показателя, представляется одним пунктом на 13-пунктовой шкале. Эта шкала эффективна при однородных данных, поскольку уровни из набора уровней значений лежат в одной зоне шкалы преобладания уровней.

При неоднородных данных решение задачи агрегирования может быть получено применением 5-пунктовой шкалы обобщенных уровней. Эта шкала

81

работает только с теми показателями, уровни значений которых преимущественно принадлежат одной зоне шкалы преобладания уровней.

В случае сильной неоднородности данных фиксируется факт неопределенности уровня.

3-Балльная шкала уровней является упрощением шкал преобладания уровней, агрегированных уровней, обобщенных уровней. На этой шкале каждой области высоких (High), срединных (Mean), низких (Low) значений уровней отвечает один соответствующий пункт шкалы (H, M, L).

5-Балльная шкала уровней в отличие от 3-балльной шкалы дополнительно вводит два промежуточных пункта: междувысокимисрединным(M-H), между низким и срединным (L-M) значениями уровней (рис. 6.1).

100

 

 

 

 

 

 

 

L

 

 

 

 

 

 

 

M

90

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H

80

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

70

 

 

 

 

 

 

 

 

60

 

 

 

 

 

 

 

 

50

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

0.08

0.25

0.5

1

2

4

8

16

24

100

 

 

 

 

 

 

 

L-M

 

 

 

 

 

 

 

M-H

90

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

80

 

 

 

 

 

 

 

 

70

 

 

 

 

 

 

 

 

60

 

 

 

 

 

 

 

 

50

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

0.08

0.25

0.5

1

2

4

8

16

24

Рис. 6.1. Распределение числа показателей по моментам временно́й серии и по уровням значений (на 5-балльной шкале)

Технология оформления закономерностей в применении к прикладной задаче о характере изменчивости показателей, вызванной внешними воздействиями, в полном объеме использует технологический ресурс, учитывает особенности эмпирического материала, разрабатывает методики решения задачи на основе полученных знаний.

6.2. Научные реконструкции профилей экспрессии генов

Задача о профиле экспрессии генов решается как задача обнаружения закономерностей вида «Доза воздействия – Изменение активности генов». Такая закономерность свойственна биосистеме как единому целому. Закономерности в биосистемах обусловлены множественными структурами. Гетерогенная природа закономерностей должна быть раскрыта, научно объяснена и учтена при построении профилей экспрессии генов.

Методы, основанные на статистическом подходе, не являются адекватным инструментом исследования и объяснения сложности геномных данных.

82

Физика систем разрешает эту сложность извлечением из эмпирических данных достоверного научного знания о внутрисистемных структурах и механизмах, определяющих состояния биообъектов.

Эмпирические описания GO-категорий. Количество биообъектов, за-

нятых в эксперименте – 90, из них 25 объектов – контрольная группа, 65 объектов подвергались воздействию химического вещества (формальдегид). Параметры эксперимента – концентрация химического вещества (0; 0.7; 2; 6; 15 ppm), точка съема данных (6 ч; 24 ч; 5 дн; 8 дн; 19 дн) (табл. 6.2).

Таблица 6.2

Количество биообъектов в каждой экспериментальной группе

Концентрация

 

Точка съема данных

Всего

формальдегида, ppm

6 ч

24 ч

5 дн

8 дн

19 дн

 

 

 

 

 

 

 

0

8

4

4

5

4

25

0.7

4

4

4

4

4

20

2

4

4

5

4

4

21

6

4

4

4

4

4

20

15

4

4

Итого

24

16

17

17

16

90

Результаты обработки геномных данных, полученных в ходе выполненного эксперимента, на базе статистического подхода опубликованы в журнале «Toxicological Sciences» [31]. Профили экспрессии генов на базе тех же геномных данных построены методами ФС [32].

Совокупность генов структурирована в трех представлениях генной он-

тологии NTNU GeneTools (http://www.genetools.microarray.ntnu.no), отобра-

жающих, соответственно, биологические процессы, молекулярные функции, клеточные компоненты.

В каждом представлении онтология имеет свою иерархическую структуру, уровням которой отвечают GO-категории, включающие определенные наборы генов (табл. 6.3).

 

Описание GO-категорий

 

Таблица 6.3

 

 

 

 

 

 

 

 

 

 

GO-Онтология

GO-Категория

Имя GO-категории

Уровень

 

Число

иерархии

 

генов

 

 

 

 

Молекулярные

GO:0004386

Helicase activity

3

 

118

функции

 

 

 

 

 

 

Биологические

GO:0050867

Positive regulation of cell acti-

4

 

97

процессы

vation

 

 

 

 

 

Клеточные ком-

GO:0016604

Nuclear body

6

 

119

поненты

 

 

 

 

 

 

83

В рамках GO-категории гены наделены смысловой однородностью. Это позволяет рассматривать любую отдельно взятую GO-категорию как систему, в рамках которой можно исследовать экспрессию генов на формальдегид методами ФС.

Эмпирическое описание каждой GO-категории как системы имеет вид таблицы, строки которой представляют экспериментальные биообъекты, столбцы – значения уровней экспрессии генов.

Системные модели. Эмпирическое описание GO-категории, являющееся исходным представлением биосистемы в данных, технология системных реконструкций преобразует в атрибутированный граф связей. В графе связей проявляется сложность (многокачественность, гетерогенность), свойственная биосистеме (табл. 6.4).

 

 

Количественные характеристики графов связей

Таблица 6.4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Мера связей

Знак связей

Характер

Треугольник

 

Всегосвязей

 

 

 

 

связей

 

 

GO-Категория

информационная

непараметрическая

положительный

отрицательный

сложный

четкий

Всего

знаковымсо дисбалансом

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

GO:0004386

3307

1617

1690

2079

1225

1912

5

29 368

4472

GO:0050867

2657

1423

1234

2183

472

1388

6

32 953

1914

GO:0016604

3282

1615

1667

1951

1327

1869

2

28 983

3841

Каждая значимая парная связь в графе связей является проекцией множественных внутрисистемных корреляций, совместно определяющих форму такой связи. Гетерогенность системы передается через совокупность всех парных связей и их знаковую разметку. В подавляющем большинстве связи являются слабыми сложными и порождают большое число треугольников со знаковым дисбалансом.

На базе графа связей GO-категории технология системных реконструкций автоматически генерирует по единой схеме полное семейство системных моделей. Каждая модель данного семейства раскрывает и выражает какоелибо одно уникальное качество открытой системы, представленной этой GO-категорией. Все модели реконструктивного семейства моделей характеризуют систему во всех ее качествах. Все GO-категории являются сложными многокачественными системами (табл. 6.5).

84

 

Характеристики семейств системных моделей

Таблица 6.5

 

 

 

 

 

 

 

 

Количество

Число

Доля разрешенных

Ведущая

GO-Категория

треугольников

системная роль

 

моделей

синглетов

противоречий

показателей, %

 

 

 

GO:0004386

126

1379

0.94

100

GO:0050867

70

1057

0.98

98

GO:0016604

123

1455

0.97

100

Характеристикой многокачественности систем служат количество системных моделей и число синглетов, описывающих GO-категорию. Присущая каждой GO-категории сложность в полной мере раскрыта через ее системные модели. Этот факт подтверждается высокой долей разрешенных треугольников противоречий (носителей неоднородностей системы).

Семейство системных моделей детерминирует изменчивость всех показателей с ведущей системной ролью. В противном случае системное знание о закономерной изменчивости показателей в моделях в полной мере не раскрыто. Такой дефект системного знания связан с недостаточной представительностью или возможной неполнотой исходных эмпирических контекстов систем.

Качество системного знания. Системное знание представлено семействами системных моделей. Технология системной экспертизы дает оценку качества системных моделей (табл. 6.6).

 

 

 

 

Таблица 6.6

 

Интегральные оценки качества системных моделей

 

 

 

 

 

 

 

Эталон выражения

Выраженность смысла

GO-Категория

системного смысла

в системных моделях

 

Качество

Качество

с хорошим качеством

с хорошим качеством

 

 

оформленно-

однородно-

 

 

сти

сти

оформленности, %

однородности, %

 

 

 

 

 

GO:0004386

0.70

0.82

29

100

 

GO:0050867

0.91

0.97

67

100

 

GO:0016604

0.64

0.79

73

100

 

Доля моделей с хорошими оценками используется как общая характеристика полноты и законченности системного знания. Системная модель полностью отвечает эталону, если оценки оформленности и однородности равны 1. Модели хорошего качества превышают порог 0.6.

Основной задачей технологии системной экспертизы является построение множества кластеров объектов наблюдения, выступающих носителями конкретных качеств системы (табл. 6.7).

85

 

 

 

 

Таблица 6.7

 

Интегральные оценки качества прямых отображений

 

 

 

 

 

GO-Категория

Качество приведен-

Прямые ото-

Объем вопло-

Среднее число

ного треугольника

бражения, %

щенного смысла

эталонов на объект

GO:0004386

0.33

91

3159

35

GO:0050867

0.24

95

885

24

GO:0016604

0.34

90

1194

33

Приведенный треугольник служит инструментом прямого отображения эталонов системы на объекты кластеров. Для каждого эталона строится свой приведенный треугольник. Средняя оценка качества всех приведенных треугольников – удовлетворительная (инструмент отображения полностью адекватен при значении оценки 0).

Качество прямого отображения – удовлетворительное (более 90 % моделей эталонных состояний получили эмпирическое подтверждение). Целью прямого отображения семейства моделей эталонных состояний системы является определение объема системного смысла, воплощенного в актуальных состояниях системы (общее число объектов во всех кластерах, означающее суммарное число качеств системы, перешедших на объекты наблюдения). Объем воплощенного смысла и среднее число эталонов на объект свидетельствуют о существенной гетерогенности механизмов, формирующих актуальные состояния наблюдаемых биообъектов.

Реконструкции актуальных состояний. Технология системного ди-

зайна завершает автоматическую генерацию системного знания. Она строит модели актуальных состояний объектов наблюдения и дает им интегральную оценку качества (табл. 6.8).

 

Характеристики реконструкций состояний

Таблица 6.8

 

 

 

 

 

 

 

GO-Категория

Число ре-

Детерминирован-

Обоснованность

Предопределенность

конструкций

ность, %

уровня, %

уровня, %

GO:0004386

90

98

97

84

GO:0050867

90

94

93

81

GO:0016604

90

98

97

83

Реконструкции построены для всех объектов наблюдения (90). Изменчивость практически всех показателей для всех актуальных состояний детерминирована раскрытыми системными механизмами (значения подавляющего большинства показателей получили объяснение). Практически для всех показателей уровень значений обоснован (однозначность определения уровней значений на шкале преобладания уровня). Предопределенность уровней зна-

86

чений системными механизмами в каждом конкретном актуальном состоянии достаточно высока.

Профили экспрессии генов по концентрации формальдегида. Сис-

темный эффект действия формальдегида проявляется в закономерном изменении активности генов в зависимости от концентрации химиката. Для каждой GO-категории получены реконструкции состояний всех биообъектов. В реконструкциях выделены все показатели с высокими (High) и низкими (Low) уровнями значений, имеющие степень предопределенности не ниже достаточной. Полное множество реконструкций структурировано по концентрации химиката. На этой основе для каждого гена построено бинарное отношение «Уровень значений гена – Значение концентрации». Для выявления закономерной связи между активностью гена и концентрацией химиката применен статистический тест (критерий значимости различия пропорций, основанный на статистике 2 [33]). Закономерная связь изменения уровня активности генов с концентрацией формальдегида определяется с доверительным уровнем не ниже 0.05 (табл. 6.9).

Таблица 6.9

Распределение числа биообъектов по уровням экспрессии активных генов и концентрации формальдегида (GO:0004386)

Код зонда

Уровень

 

Концентрация формальдегида

 

Доверительный

значений

0 ppm

 

0.7 ppm

2 ppm

6 ppm

15 ppm

уровень

 

 

1371837_at

High

5

 

3

7

9

 

4

0.024

Low

8

 

6

2

2

 

0

 

 

 

 

1375633_at

High

12

 

4

3

3

 

4

0.006

Low

5

 

5

10

10

 

0

 

 

 

 

1375684_at

High

5

 

7

8

7

 

0

0.045

Low

12

 

5

3

5

 

4

 

 

 

 

1375901_at

High

3

 

5

5

11

 

4

0.018

Low

8

 

9

5

3

 

0

 

 

 

 

1376116_at

High

2

 

8

2

8

 

4

0.000

Low

12

 

4

9

1

 

0

 

 

 

 

1378875_a_at

High

14

 

3

4

4

 

4

0.001

Low

2

 

3

11

11

 

0

 

 

 

 

1385276_a_at

High

11

 

7

6

4

 

0

0.023

Low

2

 

7

9

10

 

2

 

 

 

 

1385349_at

High

13

 

6

3

3

 

2

0.012

Low

4

 

6

8

10

 

0

 

 

 

 

1388587_at

High

5

 

3

8

11

 

4

0.005

Low

11

 

8

8

2

 

0

 

 

 

 

1389470_at

High

12

 

5

2

4

 

0

0.018

Low

2

 

2

6

5

 

2

 

 

 

 

87

 

 

 

 

 

 

 

 

Окончание табл. 6.9

 

 

 

 

 

 

 

 

 

 

Код зонда

Уровень

 

Концентрация формальдегида

 

Доверительный

значений

0 ppm

 

0.7 ppm

2 ppm

6 ppm

15 ppm

уровень

 

 

1396713_at

High

9

 

2

7

3

 

4

0.012

Low

3

 

7

6

9

 

0

 

 

 

 

1397551_at

High

6

 

5

8

7

 

4

0.050

Low

9

 

10

5

2

 

0

 

 

 

 

1397697_at

High

9

 

10

6

1

 

4

0.002

Low

2

 

5

8

10

 

0

 

 

 

 

1381683_at

High

3

 

4

8

9

 

1

0.023

Low

9

 

10

2

4

 

2

 

 

 

 

1389469_at

High

11

 

10

5

3

 

0

0.000

Low

2

 

1

8

11

 

4

 

 

 

 

1389989_at

High

6

 

5

11

7

 

0

0.021

Low

10

 

12

3

5

 

3

 

 

 

 

1393798_at

High

0

 

2

12

10

 

0

0.000

Low

9

 

7

3

2

 

4

 

 

 

 

1370386_at

High

13

 

8

5

6

 

0

0.003

Low

2

 

2

7

11

 

3

 

 

 

 

1373280_at

High

8

 

5

3

4

 

4

0.011

Low

2

 

8

9

9

 

0

 

 

 

 

1398472_at

High

4

 

8

8

9

 

0

0.019

Low

12

 

6

7

2

 

3

 

 

 

 

1370537_at

High

6

 

8

7

2

 

0

0.029

Low

4

 

2

5

9

 

2

 

 

 

 

1372393_at

High

8

 

8

5

2

 

4

0.036

Low

7

 

3

9

7

 

0

 

 

 

 

1382783_at

High

11

 

9

6

2

 

0

0.006

Low

4

 

3

6

10

 

3

 

 

 

 

В табл. 6.9 зонды, активность которых установлена методами ФС и методом, предложенным Р. Томасом и др. [31], выделены жирным шрифтом.

Для каждого активного гена установлена точка 1-го перехода, означающая наименьшую концентрацию химиката, при которой зафиксирован факт изменения уровня активности гена. Эта точка определяется по точному критерию Фишера с доверительным уровнем не ниже 0.05 (табл. 6.10).

Таблица 6.10

Характеристики поведения активных генов (GO:0004386)

Код зонда

Тип перехода

Точка 1-го перехода, ppm

1371837_at

LH

2

1375633_at

HLH

2

1375684_at

LHL

2

1375901_at

LH

6

1376116_at

C

0.7

88

 

 

Окончание табл. 6.10

 

 

 

 

Код зонда

Тип перехода

Точка 1-го перехода, ppm

1378875_a_at

HLH

0.7

 

1385276_a_at

HL

0.7

 

1385349_at

HLH

2

 

1388587_at

LH

6

 

1389470_at

HL

2

 

1396713_at

HLH

0.7

 

1397551_at

LH

6

 

1397697_at

HLH

2

 

1381683_at

LH

2

 

1389469_at

HL

2

 

1389989_at

LHL

2

 

1393798_at

LHL

2

 

1370386_at

HL

2

 

1373280_at

HLH

0.7

 

1398472_at

LHL

0.7

 

1370537_at

HL

6

 

1372393_at

HLH

2

 

1382783_at

HL

6

 

Втабл. 6.10 использованы условные обозначения для типа перехода: LH

монотонно возрастающий; HL – монотонно убывающий; LHL – выпуклый; HLH – вогнутый; C – сложный.

Каждый активный ген характеризуется изменчивостью уровней его значений (переходами уровней) в зависимости от концентрации химиката. Введены пять типов переходов, знание которых необходимо для понимания системных эффектов на воздействие.

Точки 1-го перехода и типы переходов получены для всех активных генов трех GO-категорий (табл. 6.11).

Таблица 6.11

Число активных генов с характеристиками поведения

GO-Категория

Точка 1-го перехода

 

Тип перехода

 

 

 

 

 

 

 

 

 

 

0.7 ppm

2 ppm

6 ppm

15 ppm

LH

HL

LHL

HLH

C

 

 

 

 

 

 

 

 

 

 

GO:0004386

6

12

5

0

5

6

4

7

1

 

 

 

 

 

 

 

 

 

 

GO:0050867

0

4

5

0

3

6

0

0

0

 

 

 

 

 

 

 

 

 

 

GO:0016604

2

14

3

0

8

8

1

2

0

 

 

 

 

 

 

 

 

 

 

В построенных профилях экспрессии генов точками первого перехода большого числа активных генов являются концентрации химиката меньшие чем 6 ррm.

89