Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Gosy_nepolnostyu_7v1.doc
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
3.7 Mб
Скачать

17. Отбор признаков-регрессоров в обработке данных

http://www.machinelearning.ru/wiki/images/2/2d/Voron-ML-Modeling.pdf

стр 4, 1.1.1

стр 10, 1.2 - 1.2.4

18. Метод главных компонент и его модификации в обработке данных

Метод Главных Компонент (англ. Principal Components Analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Применяется во многих областях, таких какраспознавание образов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных. Иногда метод главных компонент называют преобразованием Кархунена-Лоэва (англ. Karhunen-Loeve)[1] или преобразованием Хотеллинга (англ. Hotelling transform).

В методе главных компонент (principal component analysis, PCA) ставится задача найти минимальное число новых признаков, по которым исходные признаки можно было бы восстановить линейным преобразованием, возможно, с незначительными погрешностями. PCA относится к методам обучения без учителя (unsupervised learning), поскольку преобразование строится по матрице «объекты–признаки» F, без учёта целевого вектора y. Такой подход успешно решает проблему мультиколлинеарности (взаимной зависимости признаков), но не позволяет избавиться от шумовых признаков, не связанных с целевой функцией. В результате шумовые признаки «растворяются» в новых признаках.

Задача анализа главных компонент, имеет, как минимум, четыре базовых версии:

  • аппроксимировать данные линейными многообразиями меньшей размерности;

  • найти подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (т.е. среднеквадратичное уклонение от среднего значения) максимален;

  • найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально;

  • для данной многомерной случайной величины построить такое ортогональное преобразование координат, что в результате корреляции между отдельными координатами обратятся в ноль.

Первые три версии оперируют конечными множествами данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных. Четвёртая версия оперирует случайными величинами. Конечные множества появляются здесь как выборки из данного распределения, а решение трёх первых задач — как приближение к «истинному» преобразованию Кархунена-Лоэва. При этом возникает дополнительный и не вполне тривиальный вопрос о точности этого приближения.

Поиск ортогональных проекций с наибольшим рассеянием

Пусть нам дан центрированный набор векторов данных (среднее арифметическое значение равно нулю). Задача — найти такое ортогональное преобразование в новую систему координат, для которого были бы верны следующие условия:

  • Выборочная дисперсия данных вдоль первой координаты максимальна (эту координату называют первой главной компонентой);

  • Выборочная дисперсия данных вдоль второй координаты максимальна при условии ортогональности первой координате (вторая главная компонента);

  • Выборочная дисперсия данных вдоль значений -ой координаты максимальна при условии ортогональности первым координатам;

Выборочная дисперсия данных вдоль направления, заданного нормированным вектором , это

(поскольку данные центрированы, выборочная дисперсия здесь совпадает со средним квадратом уклонения от нуля).

Формально, если , — искомое преобразование, то для векторов должны выполняться следующие условия:

Если решение не единственно, то выбираем одно из них.

  • Вычитаем из данных проекцию на первую главную компоненту:

; в результате ;

  1. находим вторую главную компоненту как решение задачи

Если решение не единственно, то выбираем одно из них.

  • Вычитаем проекцию на -ю главную компоненту (напомним, что проекции на предшествующие главные компоненты уже вычтены):

; в результате ;

  • находим -ю главную компоненту как решение задачи

Если решение не единственно, то выбираем одно из них.

  • ...

Фактически, как и для задачи аппроксимации, на каждом шаге решается задача о первой главной компоненте для данных, из которых вычтены проекции на все ранее найденные главные компоненты. При большом числе итерации (большая размерность, много главных компонент) отклонения от ортогональности накапливаются и может потребоваться специальная коррекция алгоритма или другой алгоритм поиска собственных векторов ковариационной матрицы.

Решение задачи о наилучшей аппроксимации даёт то же множество решений , что и поиск ортогональных проекций с наибольшим рассеянием, по очень простой причине: и первое слагаемое не зависит от . Только одно дополнение к задаче об аппроксимации: появляется последняя главная компонента

Первая главная компонента максимизирует выборочную дисперсию проекции данных

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]