Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Классификация / glava4 / FOKINA / 1.DOC

Скачиваний:

Добавлен:

01.05.2014

Размер:

1.52 Mб

Скачать

☆

1 / 71 2 3 4 5 6 7 > Следующая >>>

МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ

В настоящей главе мы остановимся на некоторых линейных методах сокращения размерности факторного пространства, т. е. пространства исследуемых признаков Во многих исследовательских работах исходное число р рассматриваемых, т. е. замеряемых на исследуемых объектах, признаков довольно велико, но тем не менее эти измерения следует обработать и осмыслить. Для наглядности картины, простоты интерпретации и упрощения счета очень часто необходимо представить каждое из наблюдений в виде набора чисел, состоящего из существенно меньшего (чем р) количества признаков. При этом оставшиеся признаки могут либо выбираться из числа исходных, либо определяться но какому-либо правилу по совокупности исходных признаков, например как линейные комбинации последних. При формировании новой системы признаков к последним предъявляются разного рода требования, такие, как наибольшая информативность с точки зрения правильного разбиения наблюдений на классы, взаимная некоррелированность, наименьшее искажение внутренней и внешней геометрической структуры множества исходных наблюдении и т. п. В зависимости от варианта формальной конкретизации этих требований мы будем приходить к тому или иному алгоритму снижения размерности.

§ 1. Meтод главных компонент

Главные компоненты представляют собой новое множество исследуемых признаков

y⁽¹⁾, y⁽²⁾, …,y⁽ⁿ⁾

каждый из которых получен в результате некоторой линейной комбинации, непосредственно измеренных на объектах, исходных признаков x⁽¹⁾, x⁽²⁾, …,x⁽ⁿ⁾. Полученные в результате такого преобразования новые признаки y⁽¹⁾, y⁽²⁾, …,y⁽ⁿ⁾обладают рядом удобных статистических свойств. В частности они упорядочены но степени рассеяния в изучаемой совокупности объектов; первый признак обладает наибольшей степенью рассеяния, т. е. наибольшей дисперсией.

Действительно, во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации исследователя интересуют в первую очередь лишь те признаки, которые обнаруживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта к другому. Так, например, при классификации «семей-потребителей» с целью выявления типологии потребления многие из замеряемых по каждой из семей признаков, таких, как душевое потребление хлеба, масла, мыла и некоторых других основных статей, вряд ли будут обнаруживать существенное различие, следовательно, не сыграют почти никакой роли в процедуре обоснованного разбиения совокупности исследуемых семей на различные типы потребителей.

С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры человека при покупке одежды достаточно назвать значения одного из двух признаков (размер-рост), являющихся какими-то производными от измерений ряда параметров фигуры. При этом мы, конечно, теряем какую-то долю информации (портной измеряет пять-шесть признаков на своем клиенте!), как бы огрубляя (агрегируя) получающиеся при этом классы. Однако, как показали исследования, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводится система, использующая три признака, каждый из которых является некоторой комбинацией от большего числа непосредственно замеряемых на объекте параметров.

Для пояснения сущности того линейного преобразования исходной системы признаков, которое приводит к так называемым главным компонентам, рассмотрим его геометрическую интерпретацию на примере двумерной системы наблюдений (x_i⁽¹⁾, x_i⁽²⁾), i = 1, 2, ... п, извлеченной из нормальной генеральной совокупности со средним значением а = (a⁽¹⁾ , a⁽²⁾) и ковариационной матрицей

Здесь и — дисперсии компонент, соответственно х⁽¹⁾и х⁽²⁾, a r — коэффициент корреляции между ними. Геометрически это означает, что точки (x_i⁽¹⁾, x_i⁽²⁾) будут располагаться примерно в очертаниях эллипсоидов рассеивания вида (см. рис- 4.1 а)

Рис. 4.1,Эллипс рассеивания исследуемых наблюдений и направление координатных осей главных компонент(y⁽¹⁾, y⁽²⁾): а) умеренный разброс точек;

б) отсутствие разброса точекв направлении второй главной компоненты (вырожденный случай)

В этом случае для изучения (x⁽¹⁾, x⁽²⁾) удобно перейти к новым координатам (y⁽¹⁾, y⁽²⁾) с помощью преобразования:

где

После этого преобразования точки (y⁽¹⁾, y⁽²⁾) также будут распределены нормально, но компонента y⁽¹⁾ уже не будет зависеть от y⁽¹⁾. Кроме того, если выбрать направления так, что D y⁽¹⁾ D y⁽²⁾, то геометрически это будет означать следующее: сначала производится перенос начала координат в точку (a⁽¹⁾, a⁽¹⁾), а затем оси поворачиваются на угол так, чтобы осьy⁽¹⁾шла вдоль главной оси эллипсоида рассеивания (рис. 4.1а). Чем ближе к единице, тем теснее группируются наблюдения около главной оси эллипсоида рассеивания (т.е. около новой оси y⁽¹⁾) и тем менее значащим для исследователя является разброс точек в направлении оси y⁽²⁾, а следовательно, и сама эта координата. В предельном случае =1, исследуемые наблюдения в координатах (y⁽¹⁾, y⁽²⁾) вообще не отличаются по координате y⁽²⁾ (см. рис. 4.16).

1 / 71 2 3 4 5 6 7 > Следующая >>>