
- •Методология анализа данных. Аналитический и информационный подходы к моделированию.
- •Принципы анализа данных
- •Формы представления данных
- •Процесс подготовки данных к анализу
- •Технологии kdd и Data Mining
- •Аналитические платформы
- •Консолидация данных: источники данных, основные задачи консолидации данных, обобщенная схема процесса консолидации данных
- •Хранилища данных: основные особенности концепции хд, основные требования к хд
- •Многомерные и реляционные хранилища данных Реляционные хранилища данных
- •Продукты etl Коммерческие
- •[Править]Свободно распространяемые
- •Трансформация данных: основные методы
- •Визуализация данных: цели и задачи на разных этапах аналитического процесса, группы методов визуализации данных
- •Оценка качества данных: уровни качества данных, оценка пригодности данных к анализу, оценка качества данных по их происхождению
- •Технологии и методы оценки качества данных
- •Ассоциативные правила
- •Алгоритм a priori
- •Кластеризация: алгоритм кластеризации k-means, меры расстояний, выбор числа кластеров
- •Классификация и регрессия: применение классификации и регрессии, линейная и логистическая регрессии
- •Временной ряд и его компоненты
- •Модели прогнозирования
- •Ансамбли моделей: комбинирование решений, виды ансамблей
- •Бэггинг, бустинг, стэкинг: основная идея
- •Оценка эффективности и сравнение моделей: Lift и Profit-кривые, roc-анализ
Оценка эффективности и сравнение моделей: Lift и Profit-кривые, roc-анализ
ROC-анализ основан на использовании ROC-кривой (Receiver Operator Characteristic), которая показывает результаты бинарной классификации, когда модель предсказывает вероятность того, что наблюдение относится к одному из двух классов. В таком случае важен выбор точки отсечения, то есть порога отсечения, разделяющего классы. ROC-кривая позволяет построить зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров.
Выбирая точку отсечения (cut-off value), можно управлять вероятностью правильного распознавания положительных и отрицательных примеров. При уменьшении порога отсечения увеличивается вероятность ошибочного распознавания положительных наблюдений (ложноположительных исходов), а при увеличении возрастает вероятность неправильного распознавания отрицательных наблюдений (ложноотрицательных исходов). Необходимо подобрать такое значение точки отсечения, которое дает наибольшую точность распознавания класса, определённого постановкой задачи.
В анализе данных ROC-кривые применяют при решении задач классификации для определения порога отсечения.