Предварительная обработка данных

Данные обладают таким параметром как качество, которое включает следующие параметры: точность, полнота, непротиворечивость, своевременность, достоверность и интерпретируемость.

Для повышения качества данных и подготовки их к обработке методами интеллектуального анализа существует несколько технологий предварительной обработки данных.

К основным задачам предварительной обработки данных относятся следующие.

Задача очистки данных, которая используется для заполнения пропущенных значений, удаления шумов, удаления противоречивости, идентификации и удаления выбросов.

Задача интеграции данных их различных источников (баз данных, кубов данных, файлов) в одно согласованное хранилище. Данная задача подразумевает объединение данных и устранение несогласованностей, дубликатов, конфликтов.

Задача прореживания и сжатия данных используется для уменьшения размера данных с минимизацией потери информации. Данная задача включает снижение размерности данных (отбор атрибутов) и численное уменьшение (построение математических моделей для значений атрибутов).

Задача преобразования данных. К ней относятся нормализация, дискретизация, квантование, сглаживание, агрегация данных, отображение данных при помощи ядерных функций.

Также к предварительной обработке данных можно отнести преобразование задачи множественной классификации в бинарную.

Отбор атрибутов

В множестве практических ситуаций наборы данных содержат слишком много атрибутов, что увеличивает время обучения алгоритмов. При этом многие из атрибутов являются незначимыми или избыточными. Таким образом, данные должны быть предобработаны с целью отбора некоторого минимального подмножества атрибутов для обучения.

Для выбора хорошего подмножества атрибутов существует два подхода. Первый из них основан на независимой оценке статистических или каких-то других характеристиках набора данных. Он называется фильтрацией и происходит до начала непосредственного анализа данных.

Во втором подходе отбор атрибутов выполняется внутри методов интеллектуального анализа. Такой подход называется методом обертки (wrapper method), т.е. алгоритм обучения «обернут» в процедуру отбора атрибутов.

Сами методы интеллектуального анализа также могут быть использованы для отбора атрибутов.

К примеру, можно применить алгоритм построения деревьев решений к полному набору данных и затем оставить в наборе только те атрибуты, которые использованы в построенном дереве. Следует заметить, что данный отбор атрибутов не даст никакого эффекта при построении нового дерева, однако окажется полезен при использовании других методов анализа (например, метода ближайших соседей).

Другая возможность – это применить к данным алгоритм, который строит линейную модель (например, метод опорных векторов), и ранжировать атрибуты на основании величин коэффициентов модели. Атрибуты с наименьшими коэффициентами могут быть отброшены. Данную процедуру можно повторить несколько раз.

Кроме того для отбора атрибутов могут быть применены методы анализа, основанные на сравнении близости экземпляров выборки. Для сравнения берутся соседние экземпляры одинаковых и разных классов. Если у экземпляров одного класса значение определенного атрибута различно, то можно предположить, что данный атрибут является незначимым и его вес должен быть уменьшен. С другой стороны, если у экземпляров различных классов атрибут имеет различное значение, то данный атрибут значимый и его вес должен быть увеличен. После повтора данной процедуры несколько раз, происходит отбор атрибутов с наибольшими весами. К недостаткам данного метода можно отнести тот факт, что данный метод не сможет определить избыточные атрибуты, связанные тесной корреляционной связью.

Обычно поиск в пространстве атрибутов происходит в одном из двух направлений: сверху вниз (начиная с полного набора атрибутов и отбрасывая на каждом шагу наихудший из них) либо снизу вверх (начиная с пустого множества атрибутов и добавляя наилучший из оставшихся) (табл. 1.1).

Таблица 1.1 – Поиск в пространстве атрибутов

Прямой выбор (forward selection)	Обратное исключение (backward elimination)	Применение деревьев решений
Начальное множество атрибутов {A1, A2, A3, A4, A5}
{} => {A1} => {A1, A4} => {A1, A4, A5}	{A1, A2, A3, A4, A5} =>{A1, A2, A4, A5} =>{A1, A4, A5}
		=>{A1, A4, A5}

В некоторых случаях для улучшения точности классификации и лучшего понимания атрибутов для решения поставленной задачи возможно построение нового атрибута на основе существующих. К примеру, можно ввести новый атрибут «Площадь» на основе существующих атрибутов «высота» и «ширина».

<<< < Предыдущая 1 23 / 213 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025493.99 Кб0Lektsii_Ocnovy_Ekonomicheskoy_Teorii_1-8_R_O (1).docx
#
13.03.20151.52 Mб308lektsii_po_metod_issled_i_kontr_mater.doc
#
01.07.20253.05 Mб13Lektsionny_material.doc
#
01.07.202530.99 Кб0lektsiya 4.docx
#
13.03.2015107.01 Кб30lessons_darbuka.doc
#
01.07.2025606.78 Кб0LR_IAD_rus_2016.docx
#
01.07.2025104.69 Кб0Lukach_Struktura_oborotnikh_koshtiv_turistichno...docx
#
13.03.20153.42 Mб14M-u_KhOiVMS_rus.doc
#
01.05.20251.15 Mб0Macromedia Flash .docx
#
13.03.2015410.14 Кб77Mad bounce II.pdf
#
01.05.2025206.85 Кб0Malik Dastin.doc