
книги из ГПНТБ / Айвазян, С. А. Классификация многомерных наблюдений
.pdfВоспользуемся статистикой критерия отношения правдоподобия для проверки гипотезы о диагональном виде ковариационной матрицы с целью проверки независимости компонент вектора наблюдений в следующем примере.
П р и м е р 2 [2]. Исследовалось время, затрачиваемое работника ми швейной фабрики на выполнение различных элементов операции глаженья одежды. Операцию глаженья можно разделить на следу ющие шесть элементов:
1)одежда размещается на гладильной доске
2)разглаживаются короткие швы (х^2))\
3)одежда перекладывается на гладильной доске (л43>);
4)разглаживаются длинные швы на три четверти (я<4>);
5)разглаживаются остатки длинных швов (х(5));
6)одежду вешают на вешалку (х(6>).
Вэтом случае Х ѵ представляет собой вектор измерения над ѵ-м индивидуумом. Компонента х<‘) — это время, затраченное на выпол нение і-го элемента операции, п = 76. Данные (время в секундах) обработаны, получены выборочные вектор среднего значения и ковари ационная матрица
9,47 \
25,56
13,25
а— 31,44 27,29 8,70
2,57 |
0,85 |
1,56 |
1,79 |
1,33 |
0,42' |
0,85 |
37,00 |
3,34 |
13,47 |
7,59 |
0,52 1 |
1,56 |
3,34 |
8,44 |
5,77 |
2,00 |
0,50 |
1,79 |
13,47 |
5,77 |
34,01 |
10,50 |
1,77 |
1,33 |
7,59 |
2,00 |
10,50 |
23,01 |
3,43 |
Выборочные стандартные отклонения равны (1,604; 6,041; 2,903; 5,832; 4,798; 2,141). Выборочная корреляционная матрица R — (гі})
имеет вид: |
0,088 |
0,334 |
0,191 |
0,173 |
0,123 |
1,000 |
|||||
0,088 |
1,000 |
0,186 |
0,383 |
0,262 |
0,040 |
0,334 |
0,186 |
1,000 |
0,343 |
0,144 |
0,080 |
0,191 |
0,384 |
0,343 |
1,000 |
0,375 |
0,142 |
0,173 |
0,262 |
0,144 |
0,375 |
1,000 |
0,334 |
[0,123 |
0,040 |
0,080 |
0,142 |
0,334 |
1,000 |
Для исследователей представляет интерес проверка гипотезы о вза имной независимости шести случайных величин. Часто при изучении
затрат времени предлагается новая операция, в которой элементы ком бинируются иным способом. В новой операции некоторые элементы могут повторяться по нескольку раз, а некоторые могут быть выбро шены. Если оказываются независимыми величины, обозначающие вре мя, затрачиваемое на различные элементы операции, то естественно счи тать, что и в новой операции они останутся независимыми. Тогда рас пределение затрат времени на новую операцию можно будет оценить, пользуясь средними значениями и дисперсиями, вычисленными для ос тальных элементов. Кроме того, нас интересует возможность выделения небольшого количества вспомогательных признаков (двух-трех), с по мощью которых мы могли бы производить некоторую содержательную классификацию исследуемых работников (в том или ином смысле).
В этой задаче отношение правдоподобия V равно | R і = 0,472. Так как объем выборки велик, то можно пользоваться теори ей асимптоти ческих разложений.
В нашем случае у = |
— (п — |
1*-) |
ln | R \ = |
— ^ In 0,472= |
= 54,1, а р (р — 1)/2 = |
15. Задавшись |
уровнем |
значимости кри |
терия а = 0,01 (вероятность ошибочно отвергнуть проверяемую гипо тезу), находим (из таблиц) величину 1%-ной точки ^распределения с 15 степенями свободы: хо,оі (15) = 30,6. Поскольку у > Хо,оі (15), то гипотезу следует отвергнуть, т. е. приходим к выводу, что значения затрат времени на различные элементы операции нельзя считать не зависимыми;
— статистическая проверка некоторых предположений (гипотез)
относительно собственных |
векторов |
ковариационной матрицы ис |
следуемых признаков (і = |
1,2,..., р). Пусть у нас есть основания пред |
полагать, что «нагрузки» всех признаков на первую главную компонен ту равны между собой (факт симметричной зависимости первой главной компоненты от исходных признаков), т. е.
‘■и 112 — |
^1Р |
Р |
|
/ |
|
или, напротив, что некоторые из признаков, |
скажем х<р—і) и х <р>, во |
обще не влияют на первую главную компоненту (т. е. Іцр—і) = 11р = = 0), в то время как остальные р — 2 признака влияют на нее симмет
рично, т. е. /ц = /12 = ... = Іц р -2) = у ■*_2 и т. д.
Для решения подобных вопросов можно использовать статистиче ский критерий равенства г'-го собственного вектора неизвестной кова
риационной матрицы некоторому заранее заданному вектору /г. В [15]
показано, что гипотеза lt = U должна быть отвергнута (с вероятностью ошибиться, т. е. с уровнем значимости критерия, приблизительно рав ной а), если окажется, что
у(0) = (П-- 1) % 1 ; 2 - Ч г + ~
Я.І
/ ; 2 ѵ |
1) . |
154
где подразумевается, что характеристический корень оценка кото*
рого участвует в выражении для критической статистики, имеет крат ность, равную единице, а все остальные величины соответствуют ранее введенным обозначениям;
— проверка гипотезы о равнокоррелированности всех р исходных признаков, т. е. гипотезы rtj — г°, где rtJ — парный коэффициент кор реляции между признаком и признаком х^> [26]. Эта гипотеза оз начает, что последние р — 1 характеристических корней корреляцион ной матрицы равны между собой. Кроме того, постулируемый здесь специальный вид корреляционной матрицы допускает простые явные
выражения |
в виде решений |
соответствующих |
характеристических |
|
уравнений |
= 1 + (р — 1) |
г°, |
= ... = Кр |
= 1 — г°, //<’>= |
= (л/1' + х<2>+ ... + х<Р>)/|/р и т. д. [26, с. 244].
Оказывается, гипотезу гі} = г° следует отвергнуть (с вероятностью ошибиться, приблизительно равной а), если
|
п— 1 |
р |
|
а - , - ; ) 2 •С 2 (г ,—г)2 |
|
- 2) |
||||||
и = |
2 |
|
■ x S ( ö * ^ |
|||||||||
О - ? ) 2 |
|
|
||||||||||
|
г. /= 1 |
|
|
|г = і |
|
|
|
|
||||
|
|
|
(<</) |
|
|
|
|
|
|
|
|
|
где ru — выборочные парные коэффициенты корреляции между |
и |
|||||||||||
x(J), подсчитанные по наблюдениям Х 1г Х2, ..., Хп, а |
|
|||||||||||
|
|
|
|
|
|
|
р |
|
|
|
|
|
|
|
|
|
|
г |
р- i |
V |
|
ІѴ> |
|
|
|
|
|
|
|
|
^ |
|
Г |
|
|
|||
|
|
|
|
|
|
к |
ѵ= 1 |
|
|
|
|
|
|
|
|
|
|
|
|
( Ѵ ф і ) |
|
|
|
|
|
|
|
|
|
|
: |
2 |
|
V, |
- |
|
|
|
|
|
|
|
|
— |
гг |
Z |
|
ГЧ’ |
|
|
|
|
|
|
|
|
|
P ( P - i ) . |
|
|
|
|
|
|
|
|
|
|
|
|
|
U Ф/) |
|
|
|||
|
|
|
|
|
|
( Р~ l)2 (2—г) Я |
|
|
||||
|
|
|
|
|
|
Р—(Р — 2) (і —7)2 ‘ |
|
|
||||
Кстати, |
в нашем примере 1 корреляционная матрица |
|
||||||||||
|
|
|
|
|
/1,0000 0,9740 0,972б\ |
|
|
|||||
|
|
|
|
R = I 0,9740 |
1,0000 |
0,9655 |
|
|
||||
|
|
|
|
|
\0,9726 |
0,9655 |
1,0000/ |
|
|
|||
Несложные подсчеты дают: |
|
|
|
|
|
|
|
|||||
гх = 0,9733, |
г2 = 0,9698, г3 = 0,9691, |
г = 0,9707, |
так что в конечном |
|||||||||
счете |
£ (/•„) —0,825. |
|
|
|
|
|
|
|
|
|
Задавшись уровнем значимости а = 0,05 и отыскав по таблицам ЗСо,о5 (2) = 5,99, приходим к выводу, что гипотеза о равнокоррелиро ванности всех трех исходных признаков может быть признана непро тиворечащей имеющимся у нас результатам наблюдения.
155
4. Главные компоненты в задачах классификации
а) Общие идеи использования главных компонент в задачах клас сификации. Дуализм в постановке задачи. Очевидно, возможность гео метрической интерпретации и возможность наглядного представле
ния исследуемых наблюдений X- = (х\Х), ... , xjp>) (г= 1,2, , п) существенно облегчает решение задач по их классификации, и в частно сти проведение таких этапов, как предварительный анализ классифици-
y W
>18 •/3 •17
•іг •;5 •20*9 •18»19 >•ТО
|
*60 |
*43 * |
|
• 51 |
|
|
•54 •57»58*81 »50 |
|
•33»40*37 |
•49*48*56 |
•S3 |
•21 *25»39*31 |
•52 |
|
•32 |
|
|
Рис. 4.3. Расположение проекций 18-мерных наблюдений на плоскость пер вых двух главных компонент г/(1), г/(2)
руемых наблюдений, выбор метрики, выбор начальных приближений для неизвестного числа классов k , для системы эталонных множеств Е, наконец, для самого искомого разбиения S.
Так, например, одного взгляда на рис. 4.3, на котором изображены проекции тридцати одного (п = 31) восемнадцатимерного наблюдения (р = 18) на плоскость первых двух главных компонент (построенных по исходным 18признакам х(1), %<2>, ..., х(18>), достаточно, чтобы обнару жить четкое распадение исследуемой совокупности наблюдений на
3класса1.
1Данные заимствованы из работы [3]. В ней, в частности, исследовалась возможность разбиения испытываемых экземпляров растений (помидоров) в пространстве признаков, характеризующих различные процессы роста растений,
на однородные группы. Эти группы должны были выявить, в конечном счете, на-
156
А попробовал бы исследователь уловить это распадение непосредст венно в исходном восемнадцатимерном пространстве X!
Источником нашего оптимизма в отношении результатов исполь зования такого проектирования исследуемых многомерных наблюдений на плоскость являются, как легко сообразить, геометрические экс тремальные свойства главных компонент, в частности вышеупомянутые свойства 1 — 3, в соответствии с которыми проектирование исходной совокупности наблюдений в пространство меньшей размерности, «на тянутое» на р' первых главных компонент (р' < р), наименее искажает ее геометрическую конфигурацию.
Перед тем как перейти к некоторым конкретным примерам примене ния главных компонент в задачах классификации обратим внимание читателя на возможную двойственность_(дуаушзм). в интерпретации мно
гомерного наблюдения Х'і = lx*p,x(iZ\ ..., х\р)) вообще, и в постанов ке задачи при эксплуатации метода главных компонент в частности-
Действительно, если в матрице наблюдений
х \ 1) |
. |
л п |
|
: * ( 1 ) |
|
ѵ (2> |
v ( 2 ) • • „ ( 2 ) |
|
Xi |
X% |
|
(*1, Я * , - , *п) = |
|
|
У ( Р ) |
: |
y(p) |
X i |
4 P ) : . |
Л П |
рассматривать в качестве наблюдения столбцы X t, то классифици руемыми объектами (в количестве п штук) будут объекты, на каждом из которых было замерено по р признаков х^1\ так или иначе характеризующих его состояние. Если же в качестве «наблюде
ния» рассматривать строки Х%' = (х ^ , х<£), хіѵ)) этой матрицы, то классифицируемыми объектами будут уже сами признаки (в коли честве р штук), рассматриваемые, соответственно, в н-мерном прост ранстве X*.
Очевидно, задачи классификации в одном (X) и в другом (X*) про странстве преследуют совершенно разные цели. Относительно целей классификации в пространстве X мы уже говорили. Что же касается классификации в пространстве X* (т. е. классификации самих призна ков) то наличие небольшого (сравнительно с р) числа однородных групп признаков позволяет сделать вывод о близости (коррелированное™, взаимном дублировании) признаков, входящих в одну группу, и, в ко нечном счете, существенно снизить размерность исходного факторного
личие трудноулавливаемых различий в исходных условиях выращивания (при постановке эксперимента эти условия предполагались, — и как выяснилось, не обоснованно! — одинаковыми для всех растений). Кстати, при исследовании было
обнаружено, что первые две главные компоненты у^ и у(2^ |
содержат |
80% от |
|
общей суммарной дисперсии всех 18 |
исходных признаков. При этом |
первую |
|
главную компоненту ( у ^ ) удалось |
интерпретировать как |
характеристику |
общего состояния растения, в то время как вторая главная компонента (у'2*)
характеризовала процесс фотосинтеза.
157
пространства X, оставив, например, для дальнейшего рассмотрения лишь по одному представителю от каждой такой группы.
З а м е ч а н и е о необходимости нормировки в пространстве X*. Классифицируя признаки, необходимо помнить, что два признака Х% и Х*тестественно считать близкими не только в случае сравнитель ной малости расстояния р (Ху, Х*т) (евклидового типа) между ними, но и в случае их достаточно простой взаимной зависимости, например Хѵ = сХт, где с — некоторый скалярный множитель. Для того чтобы это оказалось учтенным при проектировании «наблюдений» X*, Х%, ...,
..., Хр в пространство меньшей размерности с помощью метода главных компонент, необходимо предварительно (до применения метода) со ответствующим образом пронормировать исходные данные в простран стве X*, например, переходя к «наблюдениям»
арифметическое ѵ-го признака
подсчитанное по п исходным наблюдениям.
И, наконец, в целях большего удобства технического представления результатов исследования (графиков, таблиц и т. п.) помимо необходи мой нормировки иногда еще дополнительно центрируют рассматривае мые наблюдения Х%, т. е. переходят, в конечном счете, к наблюдениям
В дальнейшем мы, как правило, будем предполагать вспомогатель ные операции нормировки и центрирования в пространстве X* выпол ненными, но в целях упрощения обозначений, будем опускать две верх ние волнистые черточки при записи соответствующих пронормирован ных и процентрированных наблюдений.
б) Применение главных компонент при анализе структуры семей ного потребления. В процессе исследований по проблеме «Типология потребителей и потребления» нами решалась следующая частная зада ча. Объект исследований — семья. Набор измеряемых на каждом «объ екте» признаков — удельные характеристики потребления (в расчете на одного члена семьи в единицу времени) по различным статьям рас ходов (табл. 4.1), — всего в количестве 31 штуки (р = 31)1. На первом этапе исследований была отобрана так называемая «контрольная» вы борка семей небольшого объема (п = 106).
1 Постановка задачи обсуждалась и принималась совместно с Н. М. Римашевской. Подбор й оформление исходных данных этого примера, их содержатель ный анализ был проведен Л. А. Левковой. В вычислительной части работы при нимал участие П. Ф. Андрукович.
158
П р и з н а к
Хп)
Х < 2 >
*<3>
Х< 5 >
х{7)
х( 8 >
х( 9 >
*( 1 0 )
Х<4>
*) 1 2 >
*( 1 3 )
*( 1 4 )
*< 1 5 )
*( 1 6 )
Х< 1 7 >
*( 1 8 )
*( 1 9 )
С о д е р ж а н и е п р и з н а к а
С у м м а з а т р а ч и в а е м а я н а ( в р у б . , в у д е л ь н о м
и с ч и с л е н и и )
ткани готовую одежду (без ме
ховой)
меховую одежду трикотаж
обувь книги, газеты
музыкальные инструмен ты спорт мебель
предметы домашнего оби хода хлебобулочные изделия
ОВОЩИ
мясные продукты рыбные продукты молочные продукты жиры яйца сахар
кондитерские изделия
Пр и з н а к
*( 2 0 )
*( 2 1 )
*( 2 2 )
Х( 2 ö )
*< 2 4 )
х( 2 5 )
*< 2 6 )
*( 2 7 )
х(28)
*( 2 9 )
*( 3 0 )
*( 3 1 >
Т а б л и ц а 4.1
С о д е р ж а н и е п р и з н а к а
С у м м а , з а т р а ч и в а е м а я н а ( в р у б . , в у д е л ь н о м
и с ч и с л е н и и )
общественное питание (включая расходы вре менно выехавших членов семьи)
культурно-просветитель- ные мероприятия транспорт услуги почты и телегра фа
жилищно-коммунальные расходы продукты растительного происхождения
продукты животного происхождения услуги (включая х(21) и
х(24), плюс бытовые и т. п.)
общественное питание (исключая расходы временно выехавших членов
семьи)
все продовольственные товары алкогольные напитки
все промышленные това ры
Результаты проектирования тридцати одного 106-мерного наблюде
ния Х%' = (х<ѵ), х<ѵ>, |
х[у0\), ѵ = |
1, |
2, |
31 — на плоскость пер |
вых двух главных компонент (у*, уі) |
представлены на рис. 4.4. Чита |
|||
тель, по-видимому, согласится с нами, |
что если разбить исследуемые |
признаки на пять условных классов так, как это сделано на рис. 4.4, то это даст пищу для достаточно естественного содержательного анали
за взаимосвязей, существующих |
между |
исследуемыми признаками |
||
(лишь «расходы на кондитерские изделия» л419>дали, вряд ли поддаю |
||||
щиеся содержательной |
интерпретации |
результаты проектирования: |
||
они оказались почему-то в классе, |
объединяющем в себе расходы на |
|||
услуги и на наиболее необходимые промышленные товары). |
||||
в) |
Применение главных компонент при анализе производительности |
|||
труда рабочих. Различные показатели |
производительности труда |
|||
Z' = |
(2<1>, 2<2>, ...,z<m>) |
характеризуют, |
как известно, отношение ре |
ально произведенной продукции к затратам труда на ее производство. Задача изучения зависимости показателей производительности труда
от |
набора регулируемых (и |
нерегулируемых) |
признаков X' = |
= |
х<2\ ..., х<р>), характеризующих технический и организа |
||
ционный уровень производства, |
личные качества |
рабочих, социаль- |
159
но-демографические условия их жизни, постоянно (и правомерно) привлекает к себе пристальное внимание исследователей.
Однако среди различных возможных подходов к решению этой за дачи мы бы выделили следующие две схемы исследования.
У*
/ |
*77 |
•26 |
X |
|
•16 |
\ |
|||
|
•15 |
• 13 |
\ |
|
|
18 |
|||
I |
|
|
• 29 j |
|
• 14 |
• 25 |
J |
||
'4 0 ') \ V |
||||
•// |
• 12 |
/ |
||
|
/
У/ /
/•7 |
' э//*зо |
* \ |
|
|
|
-Уг |
\ |
•з У Т Т |
|
|
• /д |
\ |
|
|
|
|
|
|||
|
|
/ |
23 |
|
\ |
|
|
|
|
|
|||
|
|
I |
•6 |
|
|
|
|
|
•5О/ |
|
\ |
||
|
•21 / |
I |
|
|
I |
|
|
\ .__' |
\X |
22*47 •31 |
|
/ |
|
|
|
•4 |
/ |
(Ѣ * \
Рис. 4.4. Расположение проекций 106-мерных наблюдений (из двойствен ного пространства X*) на плоскость первых двух главных компонент (у*, Уг )• Исследование взаимосвязей между признаками, характеризующими структуру и объем семейного потребления
С х е м а 1.
1) Разбиение исследуемой совокупности рабочих на однородные
группы в пространстве объединенных признаков (X ’, Z'), |
например, |
|
с помощью главных компонент, построенных по |
набору |
признаков |
Х(1>, *<2>, ..., Х<Р>, 2<1), ... , zlm>. |
типа |
Z = / г (X), |
2) Статистическое исследование зависимостей |
произведенное отдельно внутри каждой однородной группы, выявлен ной на первом этапе (і ■— номер группы, внутри которой анализирует ся искомая зависимость).
160
СX е м а 2.
1)Разбиение исследуемой совокупности рабочих на однородные группы в пространстве признаков-аргументов X, например, с помощью
главных компонент, построенных по набору признаков |
х<2>, .... |
..., |
2) Расщепление вектора признаков-аргументов X' — (лЯ), х<2\ |
||
..., х<р)) на два подвектора: подвектор Х<‘>' = {х ^\ |
х<2\ ..., |
х^~>) |
признаков (как правило, труднорегулируемых), описывающих техни ческий и организационный уровень производства (q < р), и подвектор Х<2>' = (х^+і), х ^+ 2\ ..., л4р>) признаков (регулируемых), опи сывающих социально-демографические условия труда. Затем разбиение
исследуемой |
совокупности рабочих |
на |
однородные группы S<1), |
•S^, ..., |
подпространстве Х<н |
«нерегулируемых» признаков, |
|
а также на однородные группы 5<2>, S |2>, |
..., S*21 в подпространстве |
||
Х<2>«регулируемых» признаков. |
|
|
3) Статистическое исследование зависимостей типа
2=/{-,) U (2) l ^ (,)e s } 1)) |
(/ = |
і, 2,..., |
и |
|
|
z = / | 2, U (,)| x (2) e s (,2)) |
(/ = |
1 , 2,..., |
kx)
kt),
произведенное отдельно внутри каждой однородной группы подпро странства Х<’> (при аргументах Х<2>) и подпространства Х<2> (при аргументах Х<4). Здесь
/ (/ ) ( х (2)| х (І) e s } 11) |
|
|
означает векторную функцию от (р — q) |
переменных |
условии, |
х(<?+ 2), ..., х<р), описывающую зависимость Z от |
Х<2> при |
|
что значения «нерегулируемых» аргументов х(1), х<2), ..., |
принад |
лежат области Sj1). Аналогично определяется векторная функция /)2). Ниже приводятся результаты статистического анализа исходных данных по 100 работницам-ткачихам (п = 100) льнокомбината «Крас ная текстильщица» г. Нерехта Костромской области, составляющим более 80% всей численности ткачих комбината1. Эти результаты можно рассматривать как фрагменты осуществления этапов 1 и 2 в вышеопи
санных схемах исследования.
Обозначение и содержание восемнадцати исследуемых признаков (р = 18) приведены в табл. 4.2.
Расщепление вектора признаков-аргументов X на два подвектора носит, очевидно, условный характер и зависит как от конкретных усло вий производства, так и от конкретных целей исследования. В нашем случае в подвектор X*1* были включены первые 9 компонент вектора X.
Учитывая разнородный физический смысл единиц измерения ис следуемых восемнадцати признаков, до применения метода главных компонент все эти признаки были пронормированы с помощью своих
1 Данные заимствованы из [4], а также из работы П. Ф. Андруковича, М. В. Друцкой, К. С. Кузнецовой, А. А. Назарова «Применение метода главных компонент для анализа производительности труда рабочих». — Сб.: Проблемы уровня жизни. М., ЦЭМИ АН СССР, 1972.
6 Зак. 358 |
161 |
Т а б л и ц а 4.2
Признак |
Содержание признака |
Показатели эффективности труда:
z(1) условно-натуральный по казатель часовой выра ботки рабочего (в метроуточинах)
z(2> выполнение нормы-выра ботки (в процентах)
z(3> заработная плата (в руб.)
Показатели состояния и степени использования оборудования:
|
производительность ткац |
||
|
кого станка (в метро- |
||
|
уточин в час) |
< |
|
х < 2 > |
скорость ткацкого |
стан |
|
х<3> |
ка (ударов в мин.) |
ткани |
|
ширина |
суровой |
||
*<4> |
(метров) |
оборудования |
|
простой |
|||
х(5> |
(в процентах) |
|
|
межремонтный цикл (ме |
сяцев)
Признак Содержание признака
Ассортимент вырабатываемой продукции (в качестве сырья):
х<6> |
номер уточной пряжи |
|||
х (~> |
число обрывов нитей ос |
|||
|
новы на 1000 м |
одиноч |
||
|
ной нити |
|
|
|
|
сортность ткани |
|
||
Показатели специализации |
||||
х<9> |
рабочих |
мест: |
|
|
количество |
артикулов,, |
|||
|
вырабатываемых |
на ра |
||
|
бочем месте |
|
|
|
Показатели социально-демогра |
||||
|
фических условий: |
|
||
* < 1 ° > |
трудовой стаж по специ |
|||
|
альности (лет) |
|
||
х < 1 1 ) |
возраст (лет) |
(классов) |
||
х ( 1 2 > |
образование |
|||
х < 1 3 ) |
число |
несовершеннолет |
||
|
них детей в семье |
|||
х < 1 4 ) |
среднедушевой |
доход |
||
|
семьи |
(руб.) |
|
размер |
д .1 1 5 ) |
среднедушевой |
|||
|
жилой площади (кв. м) |
выборочных среднеквадратических отклонений s, т. е. был осуществлен! переход к новым (безразмерным) признакам
|
|
|
z (i) = |
Z(0__J(0 |
(1 = 1, |
2, |
3), |
|
|
|
|
|
z<0 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
и(/)_ѵ-(/) |
|
2, ♦• • j 15), |
||
|
|
|
х ш = ----------- |
(/= 1 , |
|||||
где |
|
|
|
|
SxU) |
|
|
|
|
|
|
1 |
|
|
|
|
п |
|
|
|
|
|
П |
|
|
|
ѵ</> |
||
|
;<!>__!_ |
V |
2<0 |
х (,) |
|
|
|||
|
|
|
Л т у |
||||||
|
с |
— |
--- |
у |
< С т у |
п |
2 |
||
|
|
|
п |
m= 1 |
|
|
|||
1 |
П |
|
|
|
|
т—1 |
|
||
|
— |
|
или и = х (і)), |
|
|||||
а s<2) = — |
V |
(ит—и )2 (w = 2<') |
|
||||||
п |
|
, |
|
|
|
|
|
|
|
Проекция исследуемых ста (п = 100) восемнадцатимерных (р = 18)* наблюдений на плоскость первых двух главных компонент г/<‘>(X , Z)■ и г/(2) (X , Z), построенных по всем рассматриваемым признакам, пред ставлена на рис. 4.5.
Анализ нагрузок исходных признаков на первые две главные ком поненты так же, как и тщательное рассмотрение рис. 4.5, позволяет интерпретировать первую главную компоненту г/<1) как агрегирован-
162