28 Февраля 2013
Основные этапы анализа данных.
Весь процесс анализа данных можно разбить на следующие этапы:
1. Понимание и формулировка задачи анализа;
2. Подготовка данных для автоматизированного анализа(предпроцессинг);
3. Применение методов интеллектуального анализа данных и построение моделей;
4. Проверка построенных моделей;
5. Интерпретация моделей человеком.
На первом этапе выполняется осмысление поставленной задачи и уточнение целей, которые должны быть достигнуты. Важно правильно сформулировать цели и выбрать необходимые для их достижения методы, так как от этого зависит дальнейшая эффективность всего процесса.
Второй этап состоит в приведении данных к форме пригодных для применения конкретных методов. Вид преобразований, совершаемый над данными, во многом зависит от используемых методов, выбранных на предыдущем этапе.
Третий этап это собственно применение методов ИАД. При этом могу применяться комбинация различных методов.
Четвертый этап. Проверка построенных моделей. Очень простой и часто используемый способ заключается в том, чтобы все имеющиеся данные, которые необходимо анализировать, разбиваются на две группы. Как правило одна из них большего размера, другая меньшего. На большей группе применяют те или иные методы ИАД, получают модели, а на меньшей проверяют их. По разнице в точности между тестовой и обучающей группам можно судить об адекватности построенной модели.
Последний этап. Интерпретация полученных моделей человеком. В целях их использования, для принятия решений, добавления получившихся правил и зависимостей в базы знаний и т.д.
Классификация и регрессия.
Постановка задачи.
В задаче классификации и регрессии требуется определить значение зависимой переменной объекта, на основании значения других переменных, характеризующих данный объект. Формально задачу классификации и регрессии можно описать следующим образом:
I ={i1,i2... ij... in}, где ij- исследуемый объект. Примером таких объектов может быть информация о проведении игр при различных погодных условиях.
Каждый объект характеризуется набором переменных: I={x1,x2,...xh...xm,y}.Где xh- независимые переменные, значение которых известны и на основании которых определяется значение переменной у. В данном примере "независимыми" переменными являются: наблюдение, температура, влажность и ветер. Зависимой переменной является игра. Data Mining часто набор независимых переменных обозначают в виде вектора х={х1,х2... xh...,xm}. Каждая переменная хh может принимать значения из некоторого множества.
Если значениями переменной являются элементы конечного множества, то говорят, что она имеет категориальный тип. Например, переменная наблюдения принимает значения на множестве значений {Солнце, обл., дождь}. Если множество значений c={c1... ck} переменная у конечная, то задача называется задачей классификации. Если переменная у принимает значение на множестве чисел R, то задача называется задачей регрессии.
14 Марта. 2013 г.
Представление результатов классификации.
Задача классификации и регрессии обнаружена функциональная зависимость между переменными может быть приставлена одним из следующих способов:
Классификационные правила
Деревья решений
Математические функции
Классификационные правила состоят из двух частей: условие и заключение. Имеет структуру: «если (условие), то (заключение). Условие является проверка одной или нескольких независимых переменных. Проверка нескольких переменных могут быть объединены с помощью операций «и», «или», «не».
Заключение является значение зависимой переменной или распределение ее вероятностей по классам. Например, «если(наблюдение = солнце и t = жарко), то (игра = нет)»; «если(наблюдение = облачность и t = холодно), то (игра = да).
Деревья решений – способ представления правил, в иерархической, последовательной структуре. Листья деревьев соответствуют значениям зависимых переменных, то есть классам. Объект принадлежит определенным классам, если значение его независимых переменных удовлетворяет условиям записанных в узлах дерева на пути от корня к листу, соответствующему этому классу. Деревья решений легко преобразуются в правила. В условную часть таких правил записывается условие, описанное в узлах дерева на пути к листу, заключительная часть – значение, определенное в листе.
Если наблюдение равно солнечно, и влажность равно высокая, то игра равно нет.
Если наблюдение равно солнечно, и влажность равно нормально, то игра равно да.
Если наблюдение равно дождь, и ветер равно да, то игра равно нет.
Если наблюдение равно дождь, и ветер равно нет, то игра равно да.
Математическая функция выражает отношение зависимой переменной от независимых переменных. В этом случае анализируемые объекты рассматриваются как точки ij={x1,x2…xh…xm,y} рассматриваются как координаты, а функция имеет следующий вид ji=w1+w1x1+w2x2…wmxm, где, w0, w1, и т.д. веса независимых переменных, в поиске которых и состоит задача классификационной функции. Очевидно, что все переменные должны быть представлены в виде числовых параметров. Для преобразования логических и категориальных переменных к числовым используют разные способы. Логические типы, как правило, кодируются цифрами один и ноль. Истине ставят в соответствие значение один, а ложь – ноль. Значение категориальных переменных являются имена возможных состояний изучаемого объекта. Их имена должны быть перечислены и пронумерованы в списке. Каждое имя из списка может быть представлено своим номером. В итоге категориальные переменные преобразуются в числовую переменную. Например, значение переменной наблюдение равно «солнечно, облачно, дождь» можно заменить значениями «0,1,2».
Разные алгоритмы решения задачи классификации и регрессии строят и используют различные способы определения значения зависимой переменной.
