- •1 Основы обработки данных
- •Предисловие
- •1. Введение в анализ данных
- •Проблема обработки данных
- •1.2. Матрица данных
- •Гипотезы компактности и скрытых факторов
- •1.4. Структура матрицы данных и задачи обработки
- •1.5. Матрица объект-объект и признак-признак. Расстояние и близость
- •1.6. Измерение признаков
- •1.7. Отношения и их представление
- •1.8. Основные проблемы измерений
- •1.9. Основные типы шкал
- •1.10. Проблема адекватности
- •1. 11. Заключение
- •1.12. Литература к главе 1
- •1.13. Вопросы для самопроверки
- •Тема 1. Представление данных и задачи обработки.
- •Тема 2. Типы признаков и их измерение.
- •2. Основы анализа связей
- •2.1. Предположение о природе связи
- •2.2. Нормальное распределение
1. 11. Заключение
Мы рассмотрели, довольно кратко, что понимается под анализом данных, представленных в виде матрицы данных. Идейная основа современного анализа данных заключается в двух неформальных гипотезах: гипотезе компактности и гипотезе скрытых факторов. В свою
26
очередь эти гипотезы основаны на понятии "похожести", смысл которого уточняется в каждой из них. Традиционно, данные представляются для анализа в виде таблицы - матрицы данных. Такая таблица допускает наглядную геометрическую интерпретацию в пространстве невысокой размерности и может служить геометрической иллюстрацией гипотезы компактности. В свою очередь, оказалось, что матрица данных, как таблица, может обладать вполне определенной структурой. Оказалось также, что некоторые структуры в такой таблице хорошо интерпретируются с точки зрения гипотезы компактности. Это свойство матрицы данных позволило развить целое направление в анализе данных - лингвистический подход. [1, 2, 51.
С другой стороны, применение структурного подхода к преобразованной матрице данных - матрице близостей - привело к задаче выделения диагональной структуры на симметричной квадратной матрице. Такая задача известна как задача о диагонализации матрицы связей [6]. Оказалось, что гипотеза компактности имеет глубокую внутреннюю связь с другой неформальной гипотезой - гипотезой о скрытых факторах. Это позволило прийти также к пониманию задачи факторного анализа как задачи анализа лингвистической структуры матрицы данных. Факторная задача понимается как задача выделения диагональной структуры корреляционной матрицы [5].
Проблемы измерения в различных шкалах изучаются в теории измерений [14]. Здесь мы лишь кратко обрисовали круг проблем, возникающих в теории измерений. Для более подробного ознакомления можно обратиться к [9, 14, 15]. Заметим, что необходимость более близкого знакомства с основами этой теории возникает всякий раз при попытке обрабатывать неколичественные данные. Как следует из теории измерений, в общем случае, обработка измерений в шкалах, менее мощных, чем абсолютная, требует введения эквивалентов многих распространенных понятий, например, понятия среднего. Поэтому довольно распространенным приемом является искусственное повышение мощности шкалы, в которой проведены измерения. Тем не менее, в анализе данных были развиты методы, специально направленные на обработку неколичественных данных - методы качественного анализа [10- 121. Анализ качественных данных развивается как теория, в которой определяются эквиваленты количественных понятий: матрица данных, расстояние, близость, гипотеза компактности, гипотеза скрытых факторов и т.д. Таким образом, задача анализа качественных данных также может решаться как задача классификации и задача выделения скрытых факторов.
Следует заметить, что анализ данных не исчерпывается рассмотренным здесь подходом. Но при любом подходе в том или ином виде можно использовать рассмотренные выше гипотезы компактности и скрытых факторов. Если задача анализа ставится в вероятностных терминах, то, как правило, она понимается как задача прикладной статистики [4, 8, 13]. Если вероятностные предположения в целом по тем или иным причинам неправомерны, то задача
27
анализа может рассматриваться, например, как задача многомерного шкалирования [3,7] или какая-либо иная.
