Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
УИР / УИР.docx
Скачиваний:
26
Добавлен:
11.06.2015
Размер:
128.38 Кб
Скачать

Рис 2. Уровни знаний, извлекаемых из данных

7. Отличия Data Mining от других методов анализа данных

Традиционные методы анализа данных (статистические методы) и OLAP в основном ориентированы на проверку заранее сформулированных гипотез (verification-driven data mining) и на "грубый" разведочный анализ, составляющий основу оперативной аналитической обработки данных (OnLine Analytical Processing, OLAP), в то время как одно из основных положений Data Mining - поиск неочевидных закономерностей.

Инструменты Data Mining могут находить такие закономерности самостоятельно и также самостоятельно строить гипотезы о взаимосвязях. Поскольку именно формулировка гипотезы относительно зависимостей является самой сложной задачей, преимущество Data Mining по сравнению с другими методами анализа является очевидным.

Большинство статистических методов для выявления взаимосвязей в данных используют концепцию усреднения по выборке, приводящую к операциям над несуществующими величинами, тогда как Data Mining оперирует реальными значениями.

OLAP больше подходит для понимания ретроспективных данных, Data Mining опирается на ретроспективные данные для получения ответов на вопросы о будущем.

Глава 2. Эпидемиологические исследования.

1. Когортные исследования.

Когортное исследование (англ. cohort study, follow-up study) предоставляет наиболее прямой путь к решению задачи последующего наблюдения. Когортный метод отбора исследуемой группы является самым простым. Все лица данной группы населения классифицируются как экспонированные в начале исследования. Группа может делиться на две (экспонированные, неэкспонированные) или несколько категорий (например, нет воздействия, незначительное воздействие, значительное воздействие).

Затем исследуемые лица прослеживаются на протяжении определенного периода наблюдения с выявлением всех новых случаев исследуемого заболевания. Объединение группы населения и периода риска (т.е. наблюдаемое человеко-время) называется иногда базой исследования, указывающей, откуда возникают случаи заболевания. Получаемая информация используется для оценки коэффициента заболеваемости или кумулятивного коэффициента заболеваемости среди экспонированных и неэкспонированных групп. Сравнение заболеваемости может быть абсолютным или относительным. На рис. 3 иллюстрируется принцип когортного исследования.

Рис. 3. Принцип когортных исследований

Пример. Среди британских врачей изучалась связь между курением и смертностью от ишемической болезни сердца. В табл. 2 приведены данные из этого исследования. Повозрастные коэффициенты заболеваемости рассчитываются как отношение числа смертей от ишемической болезни сердца к числу человеко-лет риска. Для каждой возрастной группы представлено как абсолютное, так и относительное сравнение.

Таблица 2. Смертность от ишемической болезни сердца среди курящих и не курящих

Возраст (лет)

Число смертей на 1000 человеко-лет

Курящие

Некурящие

МР1-МР0

МР1/МР0

МР1

МР0

35-44

0.6

0.1

0.5

6.0

45-54

2.4

1.1

1.3

2.18

55-64

7.2

4.9

2.3

1.47

65-74

14.7

10.8

3.9

1.36

75-84

19.2

21.8

-2.6

0.88

Всего

44.1

37.6

6.5

11.89

В экспериментальном исследовании наблюдаемые лица подвергаются экспонированию по назначению исследователя, часто на основании метода слепого отбора (аналогично рандомизированным клиническим испытаниям). Целью слепого отбора является уменьшение влияния мешающих факторов. По этическим и практическим соображениям, однако, эпидемиологические исследования являются обычно неэкспериментальными; то есть, используют экспозицию, существующую в естественных условиях. Неэкспонированная группа используется для получения информации о коэффициенте заболеваемости, который ожидался бы в экспонированной группе, если бы исследуемая экспозиция не повлияла на частоту данного заболевания. Поэтому неэкспонированную группу следует отбирать таким образом, чтобы она совпадала с экспонированной по другим определителям риска для исследуемого заболевания. Существует три принципиально разных способа отбора неэкспонированной группы:

  1. Внутреннее сравнение – определяется одна группа с достаточным количеством экспонированных и неэкспонированных лиц.

  2. Внешнее сравнение – определяется экспонированная группа и предпринимаются попытки найти другую группу, не экспонированную, но сходную с первой по другим характеристикам.

  3. Сравнение с “общим” населением – определяется экспонированная группа, и заболеваемость в ней сравнивается с заболеваемостью, например, всего населения конкретного географического региона (рассматриваемого как “неэкспонированное”).

Влияние мешающих факторов может возникать, если между группами неравномерно распределяется не исследуемая экспозиция, а другой определитель риска. При анализе данных мешающие факторы могут до определенной степени контролироваться; например, можно сделать поправку на различия в распределении между группами таких факторов как возраст и пол. Однако при отборе неэкспонированной группы следует учитывать также и другие проблемы.

Заболеваемость может значительно изменяться во времени (год, время года и пр.), зависеть от географической зоны, этнического фона и социально-экономического положения лиц исследуемой группы. Различия между экспонированными и неэкспонированными группами по этим или другим факторам могут повлиять на результаты исследования. Во избежание подобных проблем, имеет смысл отбирать экспонированных и неэкспонированных лиц с одинаковым распределением по этим факторам и наблюдать их в течение одинакового периода времени.

Использование всего населения в качестве группы сравнения для когортных исследований имеет несколько недостатков. Одной из таких проблем является эффект здорового работника.

Проблема заключается в систематической ошибке оценки вследствие того, что занятые определенной профессиональной деятельностью лица часто составляют группу с более низким, чем население в целом, риском развития ряда заболеваний просто потому, что такая деятельность требует определенного уровня здоровья. Не занятая подобной деятельностью часть населения будет подвергаться, следовательно, более высокому риску заболеть. Таким образом, в исследовании, сравнивающем опыт заболеваемости определенной профессиональной группы с населением в целом, эффект здорового работника может привести к недооценке относительной заболеваемости в экспонированной группе.

Если “неэкспонированная” группа представлена населением в целом, то входящие в нее экспонированные лица также включаются в категорию “неэкспонированные”. Если только доля экспонированных лиц во всем населении не очень мала, такое разбавление “неэкспонированного” населения может привести к недооценке относительной заболеваемости в экспонированной группе.

Методы выявления новых случаев исследуемого заболевания должны быть одинаковы для экспонированных и неэкспонированных. Если, например, экспонированная группа имеет другой уровень применения скрининга, идентификация случаев болезни в ней может быть более полной. Определить, до какой степени выбор неэкспонированной группы влияет на результаты исследования, можно, отобрав несколько таких групп. Если раздельный анализ этих групп дает одинаковые результаты, выбор неэкспонированной группы на них очевидно не повлиял. Еще одним способом проверки сопоставимости экспонированных и неэкспонированных является включение сравнений частоты заболеваний, связь которых с исследуемой экспозицией не предполагается.

Различают проспективное и ретроспективное когортные исследования. Суть проспективного исследования заключается в формировании когорты и дальнейшем ее наблюдении с целью регистрации заболеваемости или смертности. Ретроспективное исследование опирается на информацию об экспозиции и заболевании, собранную в течение какого-то периода в прошлом. Например, источником информации о случаях рака часто служат данные регистра рака или регистра причин смерти, что позволяет снизить затраты на проведение исследования. Точность такого исследования зависит от полноты регистрации заболевания в территориальном регистре и от исследуемого периода времени. Таким же образом сведения об экспозиции можно получить из данных переписи или регистров, содержащих информацию об определенных профессиональных группах. Здесь также возможна значительная экономия средств, но прежде чем полагаться на такой источник, следует изучить качество содержащейся в нем информации об исследуемой экспозиции. Кроме того, в таких источниках могут отсутствовать данные об соответствующих мешающих факторах. Существуют также исследования комбинированного типа, объединяющие в себе характеристики проспективного и ретроспективного исследований.

Ретроспективные когортные исследования обычны для эпидемиологии профессиональных заболеваний. Часто группа работников отрасли или предприятия прослеживается через регистры с информацией о случаях заболевания или смерти. В качестве группы неэкспонированных используется население страны или отдельного региона. Для определения эффекта влияния экспозиции на частоту заболевания в таких исследованиях рассчитывается либо SIR (стандартизованное отношение заболеваемости), либо SMR.

Пример. Для проверки гипотезы о том, что экспозиция к некоторому химическому веществу на производстве увеличивает риск развития рака, в исследование были включены инженеры-химики, закончившие Стокгольмский Королевский технологический институт в 1931-1959 гг.. Эта когорта прослеживалась по Шведскому регистру причин смерти. Наблюдаемое число смертей от рака в когорте составило 32. Если бы химики в каждой возрастной группе имели тот же коэффициент смертности, что и все работающее население страны, ожидаемое число составило бы 24,2 смерти от рака. Следовательно,

SMR = 32 / 24,2 * 100 = 132.23

Преимущества когортных исследований:

  1. Могут быть использованы для изучения относительно редких экспозиций при тщательном отборе групп лиц по характеру экспозиции.

  2. Может быть изучен широкий спектр патологий, связанных с изучаемой экспозицией.

  3. Экспозиция предшествует заболеванию, что в большей степени, чем в исследованиях случай-контроль и экологических, отвечает критерию временной последовательности при установлении причинных связей.

  4. Может быть получена подробная информация о мешающих факторах, что позволит их контролировать или на стадии планирования или при анализе данных

  5. Подробные данные об экспозиции

Недостатки когортных исследований:

  1. Большой объем исследований, значительно превышающий объем исследований случай-контроль. Для исследований редких заболеваний число лиц, которых необходимо включить в исследование, настолько велико, что делает проведение когортного исследования практически нецелесообразным.

  2. Высокая стоимость исследования, которая зависит от типа когорты (историческая или текущая когорта), одномоментного или постоянного прослеживания.

  3. Длительность исследования. Оно больше, чем для всех других типов исследования. Особенно длительный период необходим при проспективном прослеживании когорты.

Соседние файлы в папке УИР