- •Data Mining (интеллектуальный анализ данных).Основные понятия и методы. Решение задачи классификации с помощью программного продукта Rapid Miner.
- •Методы исследования данных в Data Mining Метод деревьев решений
- •Искусственные нейронные сети
- •Метод опорных векторов (Support Vector Machine - svm)
- •Метод k-ближайших соседей
- •Практическая часть. Интерфейс Пользователя RapidMiner и Пример Процесса
Data Mining (интеллектуальный анализ данных).Основные понятия и методы. Решение задачи классификации с помощью программного продукта Rapid Miner.
В наше время огромное количество информации хранится и обрабатывается в электронном виде. В случае с лечебными учреждениями информация об анализах, процедурах, назначениях и ходе лечения больных образует огромные массивы данных, которые зачастую попадают в архив после выписки больного, где и хранятся до уничтожения. Таким образом, эта информация практически никак не используется и не анализируется. Исключение составляют лишь статистические подсчеты количества больных и их распределение по видам заболеваний.
В то же время информация, хранящаяся в тысячах историях болезней, может быть использована для нахождения новых взаимосвязей между различными факторами: эффективность алгоритмов лечения при определенных диагнозах, воздействие тех или иных лекарственных средств на общее течение болезни и т.д.
Поиск, описание и структурирование закономерностей в предметных областях с нечеткой системологией требуют особых математических и алгоритмических подходов. Наиболее активно такие подходы в настоящее время развиваются в рамках направления, получившего названия Интеллектуальный анализ данных (Data Mining).
Для того чтобы понять каким именно образом можно использовать Data Mining в лечебных учреждениях, необходимо ближе рассмотреть понятие Data Mining и методы данной дисциплины.
Data Mining - это процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Cогласно В.А.Дюку выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:
ассоциация — высокая вероятность связи событий друг с другом (например, один товар часто приобретается вместе с другим);
последовательность — высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой);
классификация — имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила);
кластеризация — закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы — они выявляются автоматически в процессе обработки данных;
временные закономерности — наличие шаблонов в динамике поведения тех или иных данных (типичный пример — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.
В практической медицине можно обозначить два основных направления применения Data Mining:
1) Помощь в установлении диагноза больного на основе полученных данных (жалоб, анамнеза, лабораторных исследований и т.д.)
2) Поиск новых взаимосвязей между различными факторами лечения (поиск новых медицинских знаний) с помощью анализа медицинской информации (историй болезней и др.).