- •1.1.1. Качественные измерения
- •1.1.2. Количественные измерения
- •1.1.3. Квазиколичественные измерения
- •1.2. Типы представления многомерных данных
- •1.2.1. Матрица «объект-признак»
- •Матрицы с пропусками данных
- •Основные схемы данных типа «объект-признак»
- •1.2.2. Случайная векторная переменная
- •1.2.3. Ковариационная и корреляционные матрицы
- •1.2.4. Матрицы близостей
- •1.2.5. Нечеткие методы представления данных
- •Основные характеристики нечетких множеств
- •Операции над нечеткими множествами
- •Нечеткая лингвистическая переменная
- •Упражнения и задачи
- •Литература
1.2. Типы представления многомерных данных
Многие объекты человеческой деятельности характеризуются большим количеством различных свойств и связей между ними, примерами могут служить объекты в социологии, экономике, медицине, экологии, сложных технических системах.
Свойства объектов выражаются в терминах признаков или в терминах соотношений между объектами (например, сходство, близость, различие). Зафиксированные результаты измерения признаков называют данными, которые будем делить на два класса - числовые и нечисловые.
1.2.1. Матрица «объект-признак»
Многомерные данные можно представить в виде матрицы «объект-признак» [16], строки которой соотнесены с анализируемыми объектами или номером опыта, а столбцы - со значениями изучаемых признаков (параметров, показателей, переменных, критериев, атрибутов, реквизитов, в зависимости от принятой терминологии). Матрицу «объект-признак» обозначим
Х=[ ],
где - номера объектов; - число признаков.
Будем считать, что исследователь определил технологию формирования матрицы X, область допустимых значений параметров и тип шкал, по которым производятся измерения. Если в данных отсутствует значение хотя бы одного признака какого-либо объекта, то матрица X называется неполной. Кроме того, в матрице X могут быть неправдоподобные данные, источниками которых являются, например, ошибки, допущенные экспертами при логико-семантическом анализе проблемной области (области альтернатив или вариантов), составлении протоколов экспериментов (измерений); поломка оборудования; отказ респондента дать ответ, например, о размере дохода; цензурирование данных по различным причинам (например, при оценке показателей надежности - исчезновение объекта из-под наблюдения, разное время начала наблюдений части выборки); при переписывании, хранении, обработке и передаче данных по каналам связи.
Отсутствующие и неправдоподобные данные можно идентифицировать как пропуски. Конечно, не всякое отсутствие ответа является пропуском, например, затруднение респондента дать ответ на вопрос, кого он предпочитает из двух политических деятелей, трудно отнести к пропуску. В этом случае лучше ввести в матрицу наблюдений еще один признак «затрудняюсь ответить».
Матрица X описывает п объектов в терминах т признаков, причем значения п и т обычно велики (особенно п). Считается, что для получения статистически достоверных результатов в матрице «объект-признак» число объектов п, не имеющих пропусков, должно превышать число признаков в несколько раз. Например, в задаче нахождения многомерной полиномиальной регрессии число объектов (наблюдений) п должно удовлетворять соотношению
,
где т - число признаков; k - степень полинома. Для нахождения полиномиальной регрессии четвертого порядка при пяти независимых переменных (т = 5) требуется более 126 наблюдений.
Матрицы с пропусками данных
Механизм пропусков. Для большинства задач число объектов должно превышать число признаков в 5-10 раз. Если число объектов по сравнению с числом признаков велико, то есть соблазн для решения задачи использовать только эти объекты, исключив из матрицы объекты, имеющие пропуски. Возможность исключения того или другого некомплектного объекта определяется не желанием исследователя, а механизмом пропуска, который определяет, можно ли игнорировать объект с данным пропуском или нет. Исключать можно только объекты с игнорируемыми пропусками признаков. Пропущенное значение некоторого признака можно игнорировать только в том случае, когда многомерная функция распределения вероятностей, которая включает и признак с пропуском, не зависит от присутствия пропущенного значения. Поясним это на простом примере. Пусть исследуется зависимость Y от X. Если пропуски не зависят ни от X, ни от Y, то они игнорируемы. Если пропуски зависят от Y и, возможно, от X, то они неигнорируемы. Например, если Y - доход, возраст, то для распределения дохода важен механизм пропуска X и Y. Если нужно маргинальное распределение X, то данные об Y и механизм пропуска Y нам безразличен и пропуски Y можно игнорировать.
При нахождении условного распределения f(y/x) исследование только по m комплектным данным корректно, если данные отсутствуют случайно (ОС - missing at random) или присутствуют случайно (ПС - observed at random), или отсутствуют и присутствуют случайно (ОПС - missing completety at random) [12].
Структуры пропусков. Самой простой структурой является та, при которой пропуски сосредоточены в одной из анализируемых переменных (рис. 1.1, а). Данная структура является частным случаем монотонной структуры пропусков (рис. 1.1, б), в которой векторы исследуемых переменных могут быть упорядочены таким образом, что для любого присутвующего значения переменной значение также наблюдаемо.
На рис. 1.1, в представлена структура пропусков, при которой значения двух переменных (в данном случае Х1 и Х2) не могут наблюдаться одновременно. Такая структура данных возможна при объединении двух различных выборок, у которых часть наблюдаемых переменных (в данном случае переменные ( )) является общей.
Однако наиболее общим и чаще всего встречающимся является случай неструктурированных пропусков (рис. 1.1, г).
Заполнение пропусков. Многие известные задачи многокритериального сопоставления объектов не могут быть решены без соответствующего заполнения пропусков как можно более правдоподобными значениями. Приведем краткую характеристику имеющихся методов заполнения пропусков, подробно с этими методами можно ознакомиться по книге [12].
Одним из методов восстановления пропусков является коллективная (индивидуальная) экспертная оценка пропущенного значения. Этот метод опирается на опыт экспертов, и при достаточно высокой их согласованности рассчитываются обобщенные экспертные оценки, которыми заполняют пропуски матрицы X. Другой подход восстановления пропусков основывается на следующих статистических методах.
1. Метод сглаживания. В этом методе для каждого признака по имеющимся данным вычисляются простейшие статистические характеристики: параметры сдвига, масштаба и коэффициент вариации. Если коэффициент вариации среднего мал (менее 0,1), то пропущенное значение можно заполнить одной из следующих статистик параметра сдвига: среднеарифметическое, медиана, мода, оценки «53Х Тьюки» [11]. Выбор наиболее подходящих статистик зависит от типа шкалы и закона распределения выборки данных изучаемого признака.
Если коэффициент вариации относительно среднего велик, то нужно провести разведочный анализ на однородность и наличие аномальных («диких») данных по каждому признаку и, возможно, используя и методы анализа связей между признаками каждого объекта.
Данный метод очень прост, однако его использование дает сильно заниженную оценку дисперсии из-за того, что все восстанавливаемые значения сосредоточены в центре распределения. В связи с этим в качестве оценки пропущенного значения можно использовать скорректированное значение, равное сумме оцененного среднего и случайного остатка с нулевым средним и дисперсией, равной дисперсии переменной с данным пропуском. Другим недостатком метода является то, что он не учитывает корреляции между переменными.
2. Метод одномерной регрессии (линейной, логистической, экспоненциальной, степенной, логарифмической, показательной). Переменная с пропуском берется за отклик, а за регрессор - переменная с наибольшим значением коэффициента корреляции с откликом. Полученное уравнение регрессии используется для прогноза пропущенного значения параметра. К разновидности этого метода относится метод стохастического заполнения по регрессии. К значению, предсказанному по регрессии, добавляют остаток, случайно выбранный из оцененных остатков.
3. Метод множественной шаговой регрессии. Метод применим, если набирается достаточно большая выборка комплектных (без пропусков) peгреccopoв. При применении этого метода необходима проверка соблюдения всех условий регрессионного анализа. Если матрица регрессоров плохо обусловлена, то можно применить алгоритмы регрессионного анализа для мультиколлинеарных систем, таких, как регрессия на главные компоненты, регрессия с использованием ортогональных преобразований на быстрых алгоритмах (например, дискретно-косинусное преобразование), полиномиальная регрессия заданного порядка k.
4. Методы, основанные на подборе ближайшего соседа без пропусков к объекту, содержащему пропуск. Здесь можно использовать классические методы распознавания образов и кластерного анализа с различными метриками и методами группировки, такими как - средней связи (Average), центроидный (Centroid), дальнего (Furthest) или близлежащих соседей (Nearest), медианный (Median).
5. Методы, основанные на построении модели совместного распределени значений признака X и пропусков и развитии алгоритмов оценивания параметров распределения на основе метода максимального правдоподобия. Достаточно хорошо разработанные алгоритмы этого метода заполнения пропусков для различных параметрических моделей приведены в [12].
6. Для заполнения пропусков данных относительно прошлого хотят выждать, пока процессы развернутся во времени и регистрируют значение пропущенного признака. При таком подходе пропущенные данные могут быть заполнены значениями, относящимися к моментам резких изменений в системе. Все это может нарушить синхронность данных матрицы X и увеличить долю неправдоподобных наблюдений и тем самым привести к непрезентативности выборки.
7. Использование для восстановления пропусков сингулярного разложения (Singular Value Decomposition - SVD) исходной матрицы данных [9]. Этот метод может быть применен при различных типах пропусков к любой положительно определенной числовой матрице. Преимуществом метода является учет не только сходства между признаками, но также и меры близости между объектами исходного множества признаков. Для определения сингулярного разложения рассмотрим множество всех матриц размера т×р, которое обозначим через Мт,р или Мт, если т = р. Всякая матрица Х Мт,р ранга р может быть представлена в виде сингулярного разложения (основные свойства приведены в прил.) [22, 24]
Х= , (1.1)
где U Мт - ортогональная матрица, образованная п ортонормированными собственными векторами, соответствующими собственным значениям матрицы XX'; V Мр - ортогональная матрица, образованная р ортонор-мированными собственными векторами матрицы XX'; Мт,р -матрица вида
.
D Мр - диагональная матрица, D = diag( 11.... pp ),
где ii - сингулярные числа (svds), равные неотрицательным квадратным корням из собственных чисел матрицы XX' или Х'Х. Обе системы упорядочены в соответствии с расположением собственных чисел :
.
В поэлементном представлении матрица (1.1) имеет вид
, , .
Если скрытая структура исходного множества данных имеет размер-ность т, то основные информационные характеристики матрицы X будут сосредоточены в первых т элементах, а оставшиеся (р - т) элементов будут содержать случайный шум. Таким образом, для восстановления может быть использована модель меньшей размерности
,
где - остаток.
Пусть в матрице данных значение пропущено. Тогда, с учетом (1.1) оно может быть оценено как
,
где - вычисляются по присутствующим данным.
Обозначим матрицу X с удаленной i-й строкой как , а матрицу, с удаленным j-м столбцом - как . Применяя сингулярное разложение к данным матрицам, получаем соотношения
= , , , ,
= , , , .
Оценку сингулярного числа найдем по формуле
.
Восстанавливаемое значение может быть оценено как
.
С исключением из исходной матрицы столбца j и строки i, соответст-вующих объекту с пропуском, теряется значительная часть информации, содержащейся в самих наблюдениях и их взаимосвязях. Потерю этой информации можно восполнить, используя различные алгоритмы вычисле-ния матриц XX' и Х'Х. Возможно восстановление пропусков по стандартизованным и нестандартизованным исходным данным с вычислением матриц XX' и Х'Х по комплектным наблюдениям, доступным наблюдениям и комплектным парам. При использовании стандартизации матрицы XX' и Х'Х заменяются корреляционными матрицами, для вычисления которых при наличии пропусков имеется ряд алгоритмов, которые изложены в п. 1.2.3.