- •-Data Mining (интеллектуальный анализ данных).Основные понятия и методы. Решение задачи классификации с помощью программного продукта Rapid Miner.
- •Решение задачи классификации с помощью методов Data Mining
- •Метод деревьев решений
- •Процесс кросс-валидации
- •Алгоритм решения задачи классификации
- •Практическая часть. Интерфейс Пользователя RapidMiner и Пример Процесса
-Data Mining (интеллектуальный анализ данных).Основные понятия и методы. Решение задачи классификации с помощью программного продукта Rapid Miner.
Стремительное развитие информационных технологий, в частности, прогресс в методах сбора, хранения и обработки данных позволил многим организациям собирать огромные массивы данных, которые необходимо анализировать. Объемы этих данных настолько велики, что возможностей экспертов уже не хватает, что породило спрос на методы автоматического исследования (анализа) данных, который с каждым годом постоянно увеличивается. В случае с лечебными учреждениями информация об анализах, процедурах, назначениях и ходе лечения больных образует огромные массивы данных, которые зачастую попадают в архив после выписки больного, где и хранятся до уничтожения. Таким образом, эта информация практически никак не используется и не анализируется. Исключение составляют лишь статистические подсчеты количества больных и их распределение по видам заболеваний.
В то же время информация, хранящаяся в тысячах историях болезней, может быть использована для нахождения новых взаимосвязей между различными факторами: эффективность алгоритмов лечения при определенных диагнозах, воздействие тех или иных лекарственных средств на общее течение болезни и т.д.
Поиск, описание и структурирование закономерностей в предметных областях с нечеткой системологией требуют особых математических и алгоритмических подходов. Наиболее активно такие подходы в настоящее время развиваются в рамках направления, получившего названия интеллектуальный анализ данных (Data Mining).
Для того чтобы понять каким именно образом можно использовать Data Mining в лечебных учреждениях, необходимо ближе рассмотреть понятие Data Mining и методы данной дисциплины.
Data Mining - это процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Cогласно В.А.Дюку выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:
ассоциация — высокая вероятность связи событий друг с другом (например, один товар часто приобретается вместе с другим);
последовательность — высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой);
классификация — имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила);
кластеризация — закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы — они выявляются автоматически в процессе обработки данных;
временные закономерности — наличие шаблонов в динамике поведения тех или иных данных (типичный пример — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.
В практической медицине можно обозначить два основных направления применения Data Mining:
1) Помощь в установлении диагноза больного на основе полученных данных (жалоб, анамнеза, лабораторных исследований и т.д.)
2) Поиск новых взаимосвязей между различными факторами лечения (поиск новых медицинских знаний) с помощью анализа медицинской информации (историй болезней и др.).
