Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

Глава 9 посвящена вопросам классификации в условиях практически полного отсутствия априорной информации. Рассмотрены основные вопросы кластерного анализа.

Анализ главных компонент и факторный анализ – весьма тесно связанные между собой разделы анализа данных – представлены в главах 10 и 11. Они, и в особенности факторный анализ, наиболее яркие представители методов конструирования новых признаков.

Многомерное шкалирование (глава 12) интересно геометрическим подходом к задаче выявления скрытых переменных.

При отборе материала мы старались минимизировать пересечение содержания данного пособия с пособиями других авторов НИЯУ МИФИ, обстоятельно раскрывающими отдельные темы, не затронутые в данном пособии, в частности, спектральный анализ временных рядов (О.А. Мишулина [22]), многокритериальные планы эксперимента (А.В. Бахтин, В.Д. Чалый [3]), идентификация динамических объектов (М.В. Марковский, В.Д. Чалый [20]). Ин- формационно-насыщенное пособие А.В. Крянева и Г.В. Лукина [16] тяготеет по стилю к научному изданию. Мы своей целью видели подготовить студента к самостоятельной работе по проблемам анализа данных.

Анализ данных – активно развивающаяся научная дисциплина. Появились новые подходы, ориентированные на решение практических задач большого объема. Среди них отметим интеллектуальный анализ данных, куда включают нейросетевые модели, генетические алгоритмы. Краткий обзор зтих методов содержится в последней главе пособия.

Авторы выражают искреннюю благодарность доценту Е.А. Елтаренко за предоставленный материал по основам теории измерений.

11

1. ШКАЛЫ ИЗМЕРЕНИЙ

Как мы уже отмечали, данные представляют собой результаты измерений. Измерению подлежат, как правило, свойства изучаемых объектов, проявляющиеся в виде некоторого признака в случае простых свойств (например, масса тела, температура газа), либо в виде целого комплекса признаков для сложных свойств (уровень знаний обучаемого, качество продукции, образ жизни индивида и т.д.). Задача измерения заключается в построении отображения уровня проявления свойства у рассматриваемых объектов в числовые значения таким образом, чтобы оперируя числами можно было судить об определенных закономерностях между изучаемыми объектами.

1.1. Основные понятия и определения

Рассматривается некоторое множество объектов А, на котором измеряется определенное простое свойство (признак). При рассмотрении измеряемого свойства между объектами множества А можно выделить определенные отношения Gi (i = 1,2, …,r). Совокупность всех этих отношений определяют структуру измеряемо-

го свойства.

Для целей измерения между объектами могут устанавливаться бинарные (между двумя объектами), тернарные (между тремя объектами), тетрарные (между четырьмя объектами) и в общем случае k-арные отношения. Особое место среди них отводится бинарным отношениям. Отметим среди них отношения равенства (обозначается =) и эквивалентности (обозначается ≈ ) , обладающие свойствами рефлексивности, симметричности и транзитивности, для равенства, кроме того, выполняется свойство антисимметричности; а также отношения порядка – строгого (обозначается < ), если оно антирефлексивно, асимметрично и транзитивно, и нестрогого (обозначается ≤ ), если оно рефлексивно, антисимметрично и транзитивно. Заметим, что множество всех элементов из А, эквивалентных а, называют классом эквивалентности элемента а и обозна-

12

чают ~ Тем самым, множество элементов А разбивается на непере- a.

секающиеся подмножества – классы эквивалентности.

Свойства объектов могут проявляться также через операции над объектами. Если некоторая операция ставит в соответствие каждому набору объектов а12,…,аk из А некоторый возможный объект аk+1 из этого же множества, то эту операцию можно записать как (k+1)-арное отношение. Рассмотрим некоторые бинарные операции (тернарные отношения).

Операция суммирования связывает три объекта, являясь проявлением свойства аддитивности по данному признаку. Иными словами, проявление свойства у объекта с эквивалентно суммарному проявлению этого свойства у объектов а и b.

Система с отношениями. Множество А вместе с заданным на нем множеством отношений Gi (i = 1,2, …,r) называется системой с отношениями (СО) и обозначается ; (Gi)i I>. Пусть Gi есть ki-арное отношение на А, тогда совокупность k1,k2,…,kr определяет тип системы с отношениями. Для определенности будем полагать,

что k1 ≤ k2 ≤…≤ kr.

Если множество А состоит из эмпирических объектов, и отношения Gi определены эмпирически, то система ; (Gi)i I> назы-

вается эмпирической системой с отношениями (ЭСО). Если множеством является множество действительных чисел R, то это –

числовая система с отношениями (ЧСО). СО, классы эквива-

лентности которой включают по одному элементу, называется неприводимой. В этом случае отношение эквивалентности трансфор-

мируется в отношение равенства. Неприводимую СО будем обозначать так – ; =,(Gi)i I>.

Отображения, гомоморфизмы, изоморфизмы. Пусть А и В

два произвольных множества. Функция m, ставящая в соответствие каждому элементу a A один элемент m(a) B , называется

отображением множества А в В. Элемент m(a) называют образом элемента а. При взаимно однозначном отображении каждый элемент из В является образом не более одного элемента из А.

13

Если В1 – подмножество В, то через m-1(В1) будем обозначать множество элементов из А, образы которых принадлежат В1.

Пусть даны две системы с отношениями одинакового типа:

; (Gi)i I> и ; (Si)i I>. Отображение m множества А в В называется гомоморфизмом системы ; (Gi)i I> в систему с отноше-

ниями ; (Si)i I>, если для всех i = 1,2,…, I выполнение отношения Gi(a1,…, aki ) влечет за собой выполнение отношения Si(m(a1),…,m( aki )). Рассмотрим в качестве примера две числовые

СО: <R; =,<,+> и <R; =,*>, отличающиеся операциями сложения и умножения. Гомоморфизмом первой системы на вторую будет m(a)=ea, a R. Действительно, для любых значений а1 и а2 первой системы выполнение отношений = и < влечет выполнение этих же отношений во второй системе, а выполнение тернарного отноше-

ния а12 = а3 влечет выполнение ea1 ea2 ea3 . В качестве второго

примера гомоморфизма приведем отображение СО ; ≈> в сис-

~

~

– множество классов эквивалентности.

тему < A ; =>, где

A

Автоморфизмом СО ; (Gi)i I> называется ее гомоморфизм на себя.

Если А,В,С – множества, m – отображение А в В, n – отображение В в С, то отображение А в С, определенное равенством nm=n[m(a)], называется сложным отображением.

Пусть заданы СО ; (Gi)i I>, А0 – подмножество А и ГА(А0) – множество всех взаимно однозначных гомоморфизмов системы

0; (Gi)i I> в ; (Gi)i I>. Элементы множества ГА(А0) будем называть частичными автоморфизмами системы ; (Gi)i I>,

определенными на подмножестве А0. Следует отметить, что множество частичных автоморфизмов определяется внутренними свойствами СО ; (Gi)i I>, т.е. составом объектов множества А и видами отношений Gi между объектами. Одна из важнейших тео-

рем теории измерений – теорема об определении множества го-

моморфизмов. Приведем ее без доказательства. Пусть заданы две

системы с отношениями: ; =, (Gi)i I> – неприводимая СО, <B; (Si)i J> (|J|=|I|+1) – произвольная СО того же типа; M – мно-

14

жество всех гомоморфизмов системы ; (Gi)i I> в ; (Si)i J> и m0 – произвольный элемент М. Тогда множество М = γ∙m0 , где γ – элемент множества частичных автоморфизмов ГВ(В0), определенных на подмножестве В0 = m0(А).

Используя приведенную теорему, можно определить множество всех гомоморфизмов ЭСО в ЧСО. Для этого достаточно найти один гомоморфизм m0, а затем на основании внутренних свойств ЧСО определить множество всех частичных автоморфизмов ГВ(m0(А)). Множество всех гомоморфизмов будет образовано как сложный гомоморфизм γ∙m0.

1.2. Формальное определение шкал измерений

Под шкалой измерения будем понимать гомоморфизм m неприводимой эмпирической системы с отношениями ; =,(Gi)i I> в числовую СО <R; =,(Si)i I>. Образы элементов множества А называются шкальными значениями. Согласно теореме об определении множества гомоморфизмов существует целый класс гомоморфизмов из ЭСО в ЧСО. Этот класс называют классом эквивалентных шкал, а все шкалы, принадлежащие этому классу, называют эквивалентными. Таким образом, если задана одна шкала (один гомоморфизм) m0 M, для которого известны шкальные значения m0(A), то можно указать целый класс допустимых преобразований, определяющих новые шкальные значения в классе эквивалентных шкал. Эти преобразования – суть частичные автоморфизмы γ ГR(m0(A)). Причем, как следует из теоремы о сложном гомоморфизме, класс эквивалентных шкал определяется внутренними свойствами ЧСО. Очевидно, элементы множества частичных автоморфизмов должны формироваться так, чтобы эмпирические отношения между шкальными значениями сохранялись при использовании различных шкал из класса эквивалентных.

1.3. Классификация шкал

Шкала наименований (номинальная шкала). Пусть задана простейшая система с отношениями ; ≈>, в которой единственным отношением является отношение эквивалентности. Разобьем

15

все множество А на классы эквивалентности. Множество классов

~

~

эквивалентности обозначим A .

Система с отношениями < A ;=>

будет неприводимой.

~

Гомоморфизм неприводимой

СО < A ; => в числовую СО

<R; => называется шкалой наименований (классификации, номинальной). Шкальные значения в этой шкале играют роль названий или числовых меток, которые присваиваются классам эквивалент-

ности. Шкала наименований минимально информативна: она дает

~

информацию лишь о равенстве классов из A либо об эквивалентности элементов из А. В качестве примера шкалы наименований приведем разбиение студентов на учебные группы. Все студенты одной группы связаны отношением эквивалентности и все они идентифицируются номером группы.

Поскольку каждый класс эквивалентности можно обозначить

любым числом, отличающимся от обозначения других классов, то

Г ( ~ )

допустимыми преобразованиями R A шкалы наименований являются любые взаимно однозначные отображения.

Шкала порядков. Гомоморфизм m неприводимой системы с отношениями ; =,<> в числовую систему ; =,<> называется шкалой порядков. Значения в этой шкале связаны не только отношением равенства, но и строгим порядком, что обеспечивает ее большую информативность в сравнении со шкалой наименований. Если СО содержит отношения эквивалентности, то, как и в шкале наименований, необходимо образовать неприводимую систему, выделив классы эквивалентности.

Допустимое преобразование для шкалы порядков – монотонно возрастающее. Действительно, если шкальные значения связаны отношением строгого порядка m(a1)<m(a2)<…<m(an), то после преобразования γ∙m(a), где γ – монотонно возрастающее преобразование, отношение строгого порядка сохраняется. В качестве примера укажем, что в шкале порядков измеряются знания студентов на экзамене (оценки 2, 3, 4, 5).

Шкала интервалов. Из рассмотрения шкал наименований и порядка видно, что чем больше отношений Gi в СО, тем уже класс эквивалентных шкал (уже класс допустимых преобразований). По-

16

этому шкалу наименований можно определить как шкалу, определенную с точностью до любых взаимно однозначных отображений, а шкалу порядков как шкалу, единственную до монотонно возрастающих отображений. По аналогии определим шкалу интервалов как шкалу, единственную до положительных линейных преобразований. Таким образом, класс эквивалентных шкал интервалов обра-

зуют все шкалы, связанные линейным преобразованием: m 2 ( a )= α m 1 ( a )+ β,

где α – любое положительное число, а β – любое действительное число (γ = α m ( a ) + β). Будем называть α коэффициентом растя-

жения (сжатия) шкалы, β – коэффициентом сдвига.

Преобразование интервальной шкалы означает выбор новой точки отсчета (нуля шкалы – при m1(a)=0 m2(a)=β) и другой единицы масштаба α. Примеры шкал интервалов – температурные шкалы (Цельсия, Фаренгейта), шкалы летоисчисления.

Шкала отношений. Шкала, в которой допустимым преобразованием является γ = α m(a), или иначе, единственная с точностью до коэффициента сжатия (растяжения), называется шкалой отношений. Данные шкалы наиболее распространены в физических измерениях (измерение массы, электрического заряда, значения силы). Общим в этих шкалах является наличие объекта (возможно, виртуального) с абсолютным отсутствием свойства (наличие абсолютного нуля в шкале измерения). Тем самым задается начальная точка отсчета (нуль шкалы).

Шкалы наименований и порядка принято относить к качественным, шкалы интервалов и отношений – к количественным.

Дихотомические шкалы. Пусть исследуемый признак может принимать лишь два возможных значения а и b. Подобные признаки принято называть дихотомическими (бинарными). К дихотомическим признакам относятся, в частности, вопросы анкет, требующих ответа в форме «да» или «нет». Мы вправе утверждать, что эти значения соответствуют качественной шкале, точнее, шкале наименований m. Как известно, данная шкала единственна с точностью до взаимно однозначного преобразования. Пусть с и d – значения признака в результате такого преобразования, т.е. в шкале

17

m1 . Рассмотрим линейную систему из двух уравнений относительно двух неизвестных α и β:

a αc β;

(1.1)

 

b αd β.

 

Поскольку c ≠ d, решение системы существует. Учитывая, что соотношения в (1.1) соответствуют допустимым преобразованиям шкалы интервалов, можно утверждать, дихотомические признаки измеряются и в количественной шкале – шкале интервалов.

Более того, некоторые дихотомические признаки, указывающие на наличие или отсутствие свойства, могут даже рассматриваться как измеренные в шкале отношений. Действительно, отсутствие свойства должно оцениваться нулем при любом допустимом преобразовании шкалы, что фиксирует точку отсчета. Такие дихото-

мические признаки иногда называют атрибутивными. Признак

«владение заданной профессией» является атрибутивным, тогда как признак «пол» таковым не является, поскольку оба его значения равноправны.

1.4. Инвариантные и адекватные статистики

Практический интерес представляет вопрос о соотношении статистик, определенных в различных шкалах. Напомним, что под статистикой понимается любая действительная функция, зависящая только от шкальных значений и не содержащая других переменных в качестве параметров. Если имеется множество шкальных значений m(a1)=x1, m(a2)=x2,…,m(an)=xn, то статистикой будет любая действительная функция f(x1,x2,…,xn). Так, статистиками являются среднее, медиана, дисперсия.

Пусть f (m(a1),m(a2),…,m(an)) – значение некоторой статистики в шкале m, а f*(γ·m(a1),γ·m(a2),…,γ·m(an)) – значение той же статистики, полученное для преобразованных шкальных значений. Если значение статистики не зависит от выбора одной из эквивалентных шкал, то такая статистика называется инвариантной. Число инвариантных статистик весьма ограничено. Поэтому требования к статистикам, с точки зрения их зависимости от выбора шкалы m, мо-

18

гут быть снижены до функциональной зависимости. Если значения статистики f (...) функционально связаны с f*(…) и определяются преобразованием шкальных значений γ, то это адекватные статистики. Ясно, что если статистикой является одно из шкальных значений (например, мода или медиана), то такая статистика является адекватной для рассматриваемой шкалы, поскольку в этом случае преобразование статистики и шкального значения совпадают.

В шкале интервалов адекватными будут статистики вида

n

f (m ( a 1 ) , m ( a 2 ) , … , m (a n )) = i m(ai ) 0 ,

i 1

где λ i (i=0,1,2,…,n) любые действительные числа.

Пусть f (m(a1),m(a2),…,m(an)) значение статистики f в шкале m. Подвергнем шкальные значения допустимому преобразованию

γ = α m ( a ) + β . Тогда

f* m ( a 1 ) + β , α m (a 2 )+ β ,…, α m ( a n )+ β ) =

n

n

= αλi m(ai ) λiβ λ0 αλ0 αλ0 =

i 1

i 1

=α f ( m ( a 1 ) , m ( a 2 ) , … , m ( a n ))+ λ 0 (1- α )+ β λi .

i 1n

Таким образом, преобразованию γ= α m ( a ) + β шкальных значе-

ний соответствует преобразование статистики вида α f + β ', где

β'= λ 0 (1– α ) + β Σ λi.

Частными случаями приведенной выше статистики являются:

а) произведение константы с на шкальное значение;

б) сумма шкальных значений (λ 1 = λ 2 = … = λ n =1, β '=n β);

в) среднее арифметическое при λ 1 = λ 2 = … = λ n =1/n и λ 0 =0. Вместе с тем, произведение либо отношение шкальных

значений не является адекватной статистикой. Так, для произведения двух шкальных значений имеем:

f * ∙m(a1),γ∙m(a2))=m (a1)+β)(α m(a2)+β)= =α2m(a1)m(a2)+α β (m(a1)+m(a2))+β2 =

= α2f (m(a1),m(a2))+ α β (m(a1)+m(a2))+β2.

19

Как видно из последнего соотношения, статистику f* невозможно получить из f линейным преобразованием, так что операция умножения (деления) шкальных значений в шкале интервалов некорректна.

По результатам измерений, сделанных по шкале интервалов, можно сделать вывод, на сколько проявление измеряемого свойства у одного объекта больше (меньше), чем у другого. В то же время эти измерения не позволяют сделать вывод, во сколько раз проявление измеряемого свойства у одного объекта больше (меньше), чем у другого. Так, при измерении температуры не имеет смысла выражение «температура t1=6ºC в два раза выше t2=3ºC». Подобное сравнение возможно, если статистика m(a1)/m(a2) инвариантна или, по крайней мере, адекватна.

Адекватными статистиками для шкалы отношений являются все статистики, адекватные для ранее рассмотренных шкал. Кроме этого, адекватными статистиками являются среднее геометрическое, произведение, отношение шкальных значений.

Рассмотрим более обстоятельно вопрос о применимости такой популярной статистики, как среднее, в качественных шкалах. Пусть, например, сравниваются два объекта двумя экспертами в порядковой шкале. Шкальные значения, присвоенные экспертами объектам, приведены в табл.1.1.

 

 

 

Таблица 1.1

 

Эксперт 1

Эксперт 2

Среднее арифметическое

 

 

 

 

Объект 1

1

7

4

 

 

 

 

Объект 2

4

6

5

 

 

 

 

Судя по таблице, среднее у первого объекта меньше. Естественно потребовать, чтобы любое допустимое преобразование шкалы порядка не нарушило результаты сравнения. Воспользуемся моно-

тонным преобразованием х3. Для объекта 1 среднее составит (13+73)/2=172, для объекта 2 – (43+63)/2=140. Упорядоченность

средних изменилась. Данный пример опровергает корректность использования среднего арифметического в порядковой шкале. Тем не менее исключения возможны.

20