Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 1 АОЭД.doc
Скачиваний:
29
Добавлен:
17.04.2019
Размер:
2.02 Mб
Скачать

1.2. Типы представления многомерных данных

Многие объекты человеческой деятельности характеризуются большим количеством различных свойств и связей между ними, примерами могут служить объекты в социологии, экономике, медицине, экологии, сложных технических системах.

Свойства объектов выражаются в терминах признаков или в терминах соотношений между объектами (например, сходство, близость, различие). Зафиксированные результаты измерения признаков называют данными, которые будем делить на два класса - числовые и нечисловые.

1.2.1. Матрица «объект-признак»

Многомерные данные можно представить в виде матрицы «объект-признак» [16], строки которой соотнесены с анализируемыми объектами или номером опыта, а столбцы - со значениями изучаемых признаков (параметров, показателей, переменных, критериев, атрибутов, реквизи­тов, в зависимости от принятой терминологии). Матрицу «объект-приз­нак» обозначим

Х=[ ],

где - номера объектов; - число признаков.

Будем считать, что исследователь определил технологию формиро­вания матрицы X, область допустимых значений параметров и тип шкал, по которым производятся измерения. Если в данных отсутствует значе­ние хотя бы одного признака какого-либо объекта, то матрица X называ­ется неполной. Кроме того, в матрице X могут быть неправдоподобные данные, источниками которых являются, например, ошибки, допущенные экспертами при логико-семантическом анализе проблемной области (об­ласти альтернатив или вариантов), составлении протоколов эксперимен­тов (измерений); поломка оборудования; отказ респондента дать ответ, например, о размере дохода; цензурирование данных по различным при­чинам (например, при оценке показателей надежности - исчезновение объекта из-под наблюдения, разное время начала наблюдений части вы­борки); при переписывании, хранении, обработке и передаче данных по каналам связи.

Отсутствующие и неправдоподобные данные можно идентифициро­вать как пропуски. Конечно, не всякое отсутствие ответа является про­пуском, например, затруднение респондента дать ответ на вопрос, кого он предпочитает из двух политических деятелей, трудно отнести к про­пуску. В этом случае лучше ввести в матрицу наблюдений еще один при­знак «затрудняюсь ответить».

Матрица X описывает п объектов в терминах т признаков, причем значения п и т обычно велики (особенно п). Считается, что для получе­ния статистически достоверных результатов в матрице «объект-признак» число объектов п, не имеющих пропусков, должно превышать число при­знаков в несколько раз. Например, в задаче нахождения многомерной по­линомиальной регрессии число объектов (наблюдений) п должно удовлетво­рять соотношению

,

где т - число признаков; k - степень полинома. Для нахождения полино­миальной регрессии четвертого порядка при пяти независимых перемен­ных (т = 5) требуется более 126 наблюдений.

Матрицы с пропусками данных

Механизм пропусков. Для большинства задач число объектов долж­но превышать число признаков в 5-10 раз. Если число объектов по срав­нению с числом признаков велико, то есть соблазн для решения задачи использовать только эти объекты, исключив из матрицы объекты, имею­щие пропуски. Возможность исключения того или другого некомплект­ного объекта определяется не желанием исследователя, а механизмом пропуска, который определяет, можно ли игнорировать объект с данным пропуском или нет. Исключать можно только объекты с игнорируемыми пропусками признаков. Пропущенное значение некоторого признака можно игнорировать только в том случае, когда многомерная функция распределения вероятностей, которая включает и признак с пропуском, не зависит от присутствия пропущенного значения. Поясним это на простом примере. Пусть исследуется зависимость Y от X. Если пропуски не зависят ни от X, ни от Y, то они игнорируемы. Если пропуски зависят от Y и, возможно, от X, то они неигнорируемы. Например, если Y - доход, возраст, то для распределения дохода важен механизм пропуска X и Y. Если нужно маргинальное распределение X, то данные об Y и механизм пропуска Y нам безразличен и пропуски Y можно игнорировать.

При нахождении условного распределения f(y/x) исследование только по m комплектным данным корректно, если данные отсутствуют случайно (ОС - missing at random) или присутствуют случайно (ПС - observed at random), или отсутствуют и присутствуют случайно (ОПС - missing completety at random) [12].

Структуры пропусков. Самой простой структурой является та, при которой пропуски сосредоточены в одной из анализируемых переменных (рис. 1.1, а). Данная структура является частным случаем монотонной структуры пропусков (рис. 1.1, б), в которой векторы исследуемых переменных могут быть упорядочены таким образом, что для любого присутвующего значения переменной значение также наблюдаемо.

На рис. 1.1, в представлена структура пропусков, при которой значе­ния двух переменных (в данном случае Х1 и Х2) не могут наблюдаться одновременно. Такая структура данных возможна при объединении двух различных выборок, у которых часть наблюдаемых переменных (в дан­ном случае переменные ( )) является общей.

Однако наиболее общим и чаще всего встречающимся является слу­чай неструктурированных пропусков (рис. 1.1, г).

Заполнение пропусков. Многие известные задачи многокритериаль­ного сопоставления объектов не могут быть решены без соответствую­щего заполнения пропусков как можно более правдоподобными значе­ниями. Приведем краткую характеристику имеющихся методов заполне­ния пропусков, подробно с этими методами можно ознакомиться по книге [12].

Одним из методов восстановления пропусков является коллективная (индивидуальная) экспертная оценка пропущенного значения. Этот метод опирается на опыт экспертов, и при достаточно высокой их согласован­ности рассчитываются обобщенные экспертные оценки, которыми запол­няют пропуски матрицы X. Другой подход восстановления пропусков основывается на следующих статистических методах.

1. Метод сглаживания. В этом методе для каждого признака по имеющимся данным вычисляются простейшие статистические характе­ристики: параметры сдвига, масштаба и коэффициент вариации. Если коэффициент вариации среднего мал (менее 0,1), то пропущенное значе­ние можно заполнить одной из следующих статистик параметра сдвига: среднеарифметическое, медиана, мода, оценки «53Х Тьюки» [11]. Выбор наиболее подходящих статистик зависит от типа шкалы и закона распреде­ления выборки данных изучаемого признака.

Если коэффициент вариации относительно среднего велик, то нужно провести разведочный анализ на однородность и наличие аномальных («диких») данных по каждому признаку и, возможно, используя и мето­ды анализа связей между признаками каждого объекта.

Данный метод очень прост, однако его использование дает сильно заниженную оценку дисперсии из-за того, что все восстанавливаемые значения сосредоточены в центре распределения. В связи с этим в каче­стве оценки пропущенного значения можно использовать скорректиро­ванное значение, равное сумме оцененного среднего и случайного остат­ка с нулевым средним и дисперсией, равной дисперсии переменной с данным пропуском. Другим недостатком метода является то, что он не учитывает корреляции между переменными.

2. Метод одномерной регрессии (линейной, логистической, экспо­ненциальной, степенной, логарифмической, показательной). Переменная с пропуском берется за отклик, а за регрессор - переменная с наиболь­шим значением коэффициента корреляции с откликом. Полученное уравнение регрессии используется для прогноза пропущенного значения па­раметра. К разновидности этого метода относится метод стохастического заполнения по регрессии. К значению, предсказанному по регрессии, до­бавляют остаток, случайно выбранный из оцененных остатков.

3. Метод множественной шаговой регрессии. Метод применим, если набирается достаточно большая выборка комплектных (без пропусков) peгреccopoв. При применении этого метода необходима проверка соблю­дения всех условий регрессионного анализа. Если матрица регрессоров плохо обусловлена, то можно применить алгоритмы регрессионного ана­лиза для мультиколлинеарных систем, таких, как регрессия на главные компоненты, регрессия с использованием ортогональных преобразова­ний на быстрых алгоритмах (например, дискретно-косинусное преобра­зование), полиномиальная регрессия заданного порядка k.

4. Методы, основанные на подборе ближайшего соседа без пропус­ков к объекту, содержащему пропуск. Здесь можно использовать классические методы распознавания образов и кластерного анализа с различ­ными метриками и методами группировки, такими как - средней связи (Average), центроидный (Centroid), дальнего (Furthest) или близлежащих соседей (Nearest), медианный (Median).

5. Методы, основанные на построении модели совместного распределени значений признака X и пропусков и развитии алгоритмов оценивания параметров распределения на основе метода максимального правдоподобия. Достаточно хорошо разработанные алгоритмы этого метода заполнения пропусков для различных параметрических моделей приведены в [12].

6. Для заполнения пропусков данных относительно прошлого хотят выждать, пока процессы развернутся во времени и регистрируют значение пропущенного признака. При таком подходе пропущенные данные могут быть заполнены значениями, относящимися к моментам резких изменений в системе. Все это может нарушить синхронность данных матрицы X и увеличить долю неправдоподобных наблюдений и тем самым привести к непрезентативности выборки.

7. Использование для восстановления пропусков сингулярного разложения (Singular Value Decomposition - SVD) исходной матрицы данных [9]. Этот метод может быть применен при различных типах пропусков к любой положительно определенной числовой матрице. Преимуществом метода является учет не только сходства между признаками, но также и меры близости между объектами исходного множества признаков. Для определения сингулярного разложения рассмотрим множество всех матриц размера т×р, которое обозначим через Мт,р или Мт, если т = р. Всякая матрица Х Мт,р ранга р может быть представлена в виде сингулярного разложения (основные свойства приведены в прил.) [22, 24]

Х= , (1.1)

где U Мт - ортогональная матрица, образованная п ортонормированными собственными векторами, соответствующими собственным зна­чениям матрицы XX'; V Мр - ортогональная матрица, образованная р ортонор-мированными собственными векторами матрицы XX'; Мт,р -матрица вида

.

D Мр - диагональная матрица, D = diag( 11.... pp ),

где ii - сингулярные числа (svds), равные неотрицательным квадрат­ным корням из собственных чисел матрицы XX' или Х'Х. Обе системы упорядочены в соответствии с расположением собственных чи­сел :

.

В поэлементном представлении матрица (1.1) имеет вид

, , .

Если скрытая структура исходного множества данных имеет размер-ность т, то основные информационные характеристики матрицы X будут сосредоточены в первых т элементах, а оставшиеся (р - т) элементов будут содержать случайный шум. Таким образом, для восстановления может быть использована модель меньшей размерности

,

где - остаток.

Пусть в матрице данных значение пропущено. Тогда, с учетом (1.1) оно может быть оценено как

,

где - вычисляются по присутствующим данным.

Обозначим матрицу X с удаленной i-й строкой как , а матрицу, с удаленным j-м столбцом - как . Применяя сингулярное разложение к данным матрицам, получаем соотношения

= , , , ,

= , , , .

Оценку сингулярного числа найдем по формуле

.

Восстанавливаемое значение может быть оценено как

.

С исключением из исходной матрицы столбца j и строки i, соответст-вующих объекту с пропуском, теряется значительная часть информации, содержащейся в самих наблюдениях и их взаимосвязях. Потерю этой ин­формации можно восполнить, используя различные алгоритмы вычисле-ния матриц XX' и Х'Х. Возможно восстановление пропусков по стандартизованным и нестандартизованным исходным данным с вычислением матриц XX' и Х'Х по комплектным наблюдениям, доступным наблюдениям и комплектным парам. При использовании стандартизации матрицы XX' и Х'Х заменяются корреляционными матрицами, для вычисления которых при наличии пропусков имеется ряд алгоритмов, которые изло­жены в п. 1.2.3.