- •Кафедра моэвм Проф. Д.Т.Н .Геппенер в.В. «анализ и интерпретация данных»
- •1. Введение в анализ данных
- •1.1.Проблема обработки данных
- •1.2. Матрица данных
- •1.3. Гипотеза компактности и скрытых факторов
- •1.4. Структура матрицы данных и задачи обработки
- •1.5. Матрица объект – объект и признак – признак, расстояние и близость
- •1.6. Измерение признаков
- •1.7. Основные типы шкал
- •2. Классификация данных.
- •2.1. Постановка задачи
- •1. Линейные
- •2. Нелинейные решающие функции
- •2.2. Статистические методы классификации
- •2.2.1. Постановка задачи классификации как статистической задачи при известных вероятностных распределениях.
- •2.2.2. Построение классификации для нормального распределения.
- •2.2.3.Числовые примеры
- •2.2.4. Оценка качества классификации
- •2.2.5. Классификация на основе оценки апостериорной вероятности
- •2.2.6. Классификация двух нормальных распределений с неравными матрицами ковариации
- •2.2.7. Классификация нормально распределенных векторов при неизвестных параметрах распределения
- •2.2.8. Задача статистической классификации для количества классов больше 2
- •2.2.9. Линейная дискриминантная функция Фишера
- •3. Обучаемые классификаторы. Детерминистский подход.
- •3.1. Общие свойства линейных дискриминантных функций в детерминистской постановке.
- •3.2. Персептронный алгоритм получения линейных решающих правил
- •3.3. Правила поиска решения, основанные на минимизации градиента функции качества
- •3.3.1. Формальный вывод персептронного алгоритма
- •4. Кластерный анализ
- •4.1. Постановка задачи группировки данных
- •4.2 Пример
- •4.3. Критерии качества разбиения на классы
- •4.4. Основные типы кластерных процедур. Основные задачи кластерного анализа
- •4.4.1. Построение последовательной процедуры итеративной оптимизации
- •4.4.4. Иерархические процедуры группировки
- •4.4.4.1. Агломеративная процедура
- •4.5. Статистические модели группировки
- •4.6. Алгоритм автоматической классификации на основе использования кластер-анализа
- •5. Методы снижения размерности
- •5.1. Методы отбора признаков по заданному критерию
- •5.2. Метод главных компонент
- •6. Факторный анализ
- •6.1. Модель факторного анализа
- •6.2. Структура факторных уравнений
- •6.3 Неоднозначность факторного решения
- •6.4. Метод главных факторов
- •6.5. Метод центроидных факторов
- •7. Многомерное шкалирование
- •7.1. Дистанционная модель для различий
- •7.2. Модель Торгерсона
- •7.2.1.Поворот
- •7.2.2 Объективные повороты
- •7.2.3.Ручные повороты
- •7.2.4.Размерность
- •7.2.5.Интерпретация
- •7.3. Выводы
- •8. Литература
7.2.5.Интерпретация
Интерпретируемость обсуждалась выше, когда речь шла о выборе размерности. Однако нужно сделать еще несколько замечаний об интерпретации решений. В частности, следует объяснить фразу «существенные характеристики стимулов», употреблявшуюся ранее. Такие характеристики - это обычно упорядочения или группировки стимулов.
Существенно важная группа стимулов — это набор стимулов, группирующихся вместе, в одной области многомерного пространства решения, и обладающих каким-либо общим признаком. Например, в исследовании профессий торговые профессии могут располагаться вместе, образуя разумную группировку. При исследовании популярных журналов могут группироваться вместе журналы для женщин (МС, Домашний журнал для леди, Вог и др.). Существенное упорядочение стимулов — это упорядочение, соответствующее порядку стимулов по их важной характеристике.
Интерпретация решения включает идентификацию важных группировок и упорядочений стимулов. Для группировок нужно идентифицировать те черты, которые являются общими для всех объектов каждого кластера. Для упорядочений нужно идентифицировать соответствующие им признаки. Один из способов интерпретации решения — простое рассмотрение конфигурации.
7.3. Выводы
Торгерсон [Torgerson, 1952] предположил, что различия равны расстояниям в евклидовом пространстве. Из этого предположения он вывел один из первых алгоритмов многомерного шкалирования. Используя данные, удовлетворяющие метрическому предположению Торгерсона, можно найти координатные оси, применив к матрице скалярных произведений * метод главных компонент.
Вопрос о числе координатных осей исследуется путем рассмотрения воспроизводимости осей в нескольких подвыборках, интерпретируемости решения в различных размерностях и анализа графика зависимости собственных значений от номеров осей. Решение (конфигурация) может остаться неповернутым, может быть повернуто вручную или с помощью какого-либо объективного алгоритма, такого, как варимакс [Kaiser, 1958] или эквимакс [Saunders, 1960]. Из этих трех способов поворота предпочтительнее тот, который дает наиболее интерпретируемые направления. Интерпретация решения включает идентификацию группировок стимулов или упорядочений стимулов, соответствующих их существенным характеристикам.
8. Литература
Айвазян С.А., Буштабер В.М., Енюков И.С. Прикладная статистика: классификация и снижение размерности.– М.: Финансы и статистика, 1988
Афифи А., Эйзен С. Статистический анализ: подход с использованием ЭВМ.– М.:Мир, 1982
Айвазян С.А., Бежаева О.В. Классификация многомерных наблюдений.-М:. Статистика, 1974
Дж. Ту, Р. Гонсалез Принципы распознавания образов.–М., Мир, 1978
Р. Дуда, П. Харт Распознавание образов и анализ сцен.– М:.,Мир, 1976
Дюран Б., Одел П. Кластерный анализ
Справочник по прикладной статистике, т.1,2.
Тюрин Ю.Н., Макаров А.А.Анализ данных на компьютере
В.Д. Дюк Обработка данных на ПК в примерах
М.Дейвисон. Многомерное шкалирование.- М.:Финансы и статистика,1988
А.Ю.Терехина. Анализ данных методами многомерного шкалирования.-М.:Наука, 1986
И.Гайдышев .Анализ и обработка данных . Специальный справочник.– СПб.: Питер - 2002,
Ю.Н.Тюрин, А.А. Макаров. Анализ данных на компьютере.-М.: Финансы и статистика,1995
В. Дюк, А. Самойленко. «Data Mining», - СПб:-, Питер, 2001
Справочник по прикладной статистики т.2.под редакцией Э.Ллойда, У.Ледермана.-М.:Финансы и статистика,1990
В. А. Дюк. Обработка данных на ПК в примерах. -СПб: Питер, 1999
А. А. Баргесян, М.С. Куприянов, В. В. Степаненко, И. И. Холод. Методы и модели анализа данных OLAP и Data Mining. –СПб.: BHV-Петербург, 2004
Анализ данных и процессов / А. А. Барсегян, М. С. Куприянов, И. И. Холод и др. 3-е изд., перераб. и доп. СПб.: БХВ-Петербург, 2009 г., 512 с.
По пакету STATISTICA:
Боровиков В.П. Популярное введение в программу STATISTICA.– М.: Компьютер Пресс, 1998
20.С.Д. Двоенко. , В.В. моттль Конспект лекций по курсу
Основы обработки данных» (электронный материал)