Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
RapidMiner_Practic_1.doc
Скачиваний:
23
Добавлен:
24.11.2019
Размер:
4.93 Mб
Скачать

Data Mining (интеллектуальный анализ данных).Основные понятия и методы. Решение задачи классификации с помощью программного продукта Rapid Miner.

В наше время огромное количество информации хранится и обрабатывается в электронном виде. В случае с лечебными учреждениями информация об анализах, процедурах, назначениях и ходе лечения больных образует огромные массивы данных, которые зачастую попадают в архив после выписки больного, где и хранятся до уничтожения. Таким образом, эта информация практически никак не используется и не анализируется. Исключение составляют лишь статистические подсчеты количества больных и их распределение по видам заболеваний.

В то же время информация, хранящаяся в тысячах историях болезней, может быть использована для нахождения новых взаимосвязей между различными факторами: эффективность алгоритмов лечения при определенных диагнозах, воздействие тех или иных лекарственных средств на общее течение болезни и т.д.

Поиск, описание и структурирование закономерностей в предметных областях с нечеткой системологией требуют особых математических и алгоритмических подходов. Наиболее активно такие подходы в настоящее время развиваются в рамках направления, получившего названия Интеллектуальный анализ данных (Data Mining).

Для того чтобы понять каким именно образом можно использовать Data Mining в лечебных учреждениях, необходимо ближе рассмотреть понятие Data Mining и методы данной дисциплины.

Data Mining - это процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Cогласно В.А.Дюку выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:

  1. ассоциация — высокая вероятность связи событий друг с другом (например, один товар часто приобретается вместе с другим);

  2. последовательность — высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой);

  3. классификация — имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила);

  4. кластеризация — закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы — они выявляются автоматически в процессе обработки данных;

  5. временные закономерности — наличие шаблонов в динамике поведения тех или иных данных (типичный пример — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.

В практической медицине можно обозначить два основных направления применения Data Mining:

1) Помощь в установлении диагноза больного на основе полученных данных (жалоб, анамнеза, лабораторных исследований и т.д.)

2) Поиск новых взаимосвязей между различными факторами лечения (поиск новых медицинских знаний) с помощью анализа медицинской информации (историй болезней и др.).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]