- •1 Основы обработки данных
- •Предисловие
- •1. Введение в анализ данных
- •Проблема обработки данных
- •1.2. Матрица данных
- •Гипотезы компактности и скрытых факторов
- •1.4. Структура матрицы данных и задачи обработки
- •1.5. Матрица объект-объект и признак-признак. Расстояние и близость
- •1.6. Измерение признаков
- •1.7. Отношения и их представление
- •1.8. Основные проблемы измерений
- •1.9. Основные типы шкал
- •1.10. Проблема адекватности
- •1. 11. Заключение
- •1.12. Литература к главе 1
- •1.13. Вопросы для самопроверки
- •Тема 1. Представление данных и задачи обработки.
- •Тема 2. Типы признаков и их измерение.
- •2. Основы анализа связей
- •2.1. Предположение о природе связи
- •2.2. Нормальное распределение
1.10. Проблема адекватности
Пусть заданы две шкалы UE,f1, UZи UE,f2, UZ некоторого типа. Пусть x)- преобразование. соответствующее этим шкалам, которое переводит их друг в друга и еще в некоторое множество шкал того же типа. Пусть проведены наблюдения над N объектами А = {a1,a2 …aN }, то есть измерены значения признаков X1=( f1(a1),… f1(aN))Т и X2=( f2(a1),… f2(aN))Т в первой и второй шкалах соответственно.
Рассмотрим некоторую числовую операцию s(X), которая ставит в соответствие некоторому вектору Х = (x1,… xN)Т некоторое действительное число s(X)R, где R- множество действительных чисел. Рассмотрим на множестве пар R х R отношение Р R х R как некоторое отношение из множества отношений Р{<,=,>}. Пусть результаты числовых операций s(X1) и s(X2) над значениями признаков X1 и X2 связаны отношением s(X1)Ps(X2), то есть пара (s(X1) , s(X2))Р.
Тогда, если результаты числовых операций s(Ф(X1)) и s(Ф(X2)) над значениями признаков Ф(X1)=((f1(a1)),…(f1(aN))Т и Ф(X2)=((f2(a1)),…(f2(aN))Т также связаны отношением s(Ф(X1))P s(Ф(X2)), то операция s(X) является допустимой или адекватной шкале данного типа. Рассмотрим примеры. Пусть на множестве объектов А= {а1,а2,а3} измерены признаки X1 и X2 в пятибалльной шкале порядка, и получена матрица Х (Рис. 1.12).
24
X1 X2 Y1 Y2



а1
1
2
а1
1
4
а2 2 3 а2 4 9

а3
5
4
а3
25
16
8 930 29
2.6
3.0
10.0
9.7
Рис. 1.12. Измерение в шкале порядка.
Пусть объекты из
А
одинаково упорядочены по обоим признакам
а1
а2
а3
.
Вычислим среднее по каждому признаку
и
получим,
что
,
так как
2.6 < 3..
Следовательно, можно заключить, что
значения признака X2
в среднем выше значений признака
X1.
Пусть логика
исследования привела к необходимости
значительно увеличить число градаций
признаков и перейти к 25-балльной шкале
порядка. Пусть новая шкала подобрана
так, чтобы большие значения признаков
различались сильнее, чем малые значения.
Для получения такой шкалы использовано
монотонное преобразование (x)=x2,
соответствующее типу данных шкал, то
есть шкал порядка. В результате была
получена матрица
Y,
образованная признаками Y1
= Ф(X1)
и
Y2=
Ф(X2).
Данное преобразование
(x)
допустимо,
так как сохраняет исходную
упорядоченность
объектов из А.
Но, вычислив среднее арифметическое,
мы обнаружим, что
,
так как
10 > 9.7.
Следовательно, в данном эксперименте
при переходе к другой шкале того же
типа. мы должны изменить свое первоначальное
заключение о средних по признакам прямо
на противоположное!
Этот результат показывает, что операция среднего арифметического не адекватна шкале порядка. Тогда какая же операция усреднения адекватна шкале порядка? Определим в качестве операции усреднения числовую операцию вида
![]()
25
Назовем такое усреднение медианой, если из ряда N =2k +1 значений признака Х выбирается среднее, то есть k+\ значение хk+1. Доказано, что вычисление медианы адекватно шкале
порядка. В нашем примере s(X1) < s(X2), так как 2<3, и s(Y1) <
s(Y2), так как 4<9.
Рассмотрим измерение признаков в интервальных шкалах. Пусть проведено N измерений температуры по шкале Цельсия в двух точках некоторого тела, то есть измерены признаки C1 и C2 (Рис. 1.13).
C1 C2 F1 F2

a1
c11
c12
f11
f12
…
aN cN1 cN2 fN1 fN2
Рис. 1.13. Измерение в интервальной шкале.
Вычислим среднее
арифметическое по каждому из признаков
и
и пусть
.
Преобразуем наблюдения за температурой
в шкале Цельсия к шкале Фаренгейта.
Известно, что f=
1.8с+32.
Так как температурная шкала является
шкалой интервалов, то преобразование
вида
(x)=x+
соответствует типу этих шкал. Снова
вычислим среднюю температуру по
признакам в шкале Фаренгейта
и
![]()
Легко убедиться,
что
.
Следовательно, взятие среднего
арифметического адекватно шкале
интервалов и позволяет сделать одни и
те же выводы при сравнении средних. И
вообще, среднее арифметическое является
адекватным всем более мощным шкалам.
Пусть
,
то
есть
.
Тогда
=1.8
+32=2(1.8
+32)-32==2
-32
и в шкале
Фаренгейта
.
Поэтому операция отношения не адекватна
интервальной шкале.
Рассмотренные примеры показывают результаты применения различных операций для измерений, произведенных в основных типах шкал. Часто такой анализ необходим при обработке информации, особенно, если она получена в менее сильных типах шкал.
