- •26.10.2007 Г., протокол № 2
- •Введение
- •Глава 1 элементы математической статистики
- •1.2. Генеральная совокупность и выборка
- •1.2. Обработка вариационного ряда
- •Группировка вариант в классы при дискретной изменчивости признака
- •1.3. Показатели описательной статистики
- •Форма записи и расчета среднеквадратического отклонения
- •Сравнительная оценка состава работников предприятия
- •1.4. Оценка статистических параметров по выборочным данным
- •1.5. Теоретические функции распределения
- •1.6. Статистические критерии различия
- •Форма обработки вариант в независимых совокупностях
- •Форма обработки данных сопряженных наблюдений
- •Сравнение эмпирических и теоретических частот с использованием критерия Пирсона
- •Глава 2 дисперсионный анализ
- •2.1. Однофакторный дисперсионный анализ
- •Однофакторный дисперсионный анализ
- •Результаты однофакторного дисперсионного анализа
- •2.2. Двухфакторный дисперсионный анализ
- •Двухфакторный дисперсионный комплекс
- •Результаты двухфакторного дисперсионного анализа
- •Глава 3 кластерный анализ
- •Число разбиений в зависимости от их заданной доли и вероятности
- •Число разбиений в зависимости от сочетаний числа кластеров и объектов
- •3.1. Этапы работ в кластерном анализе
- •3.2. Вроцлавская таксономия
- •3.3. Метод дендро-дерева б. Берри
- •Количественные показатели для зонирования города
- •Нормализованные безразмерные данные
- •Глава 4 информационный анализ
- •4.1. Показатели неопределенности объектов
- •Расчет показателя энтропии для установления оптимального времени отбора образцов
- •4.2. Применение информационного анализа в картографии
- •Глава 5 корреляционный анализ
- •5.1. Линейная корреляция
- •Исходные данные для расчета коэффициента корреляции
- •5.2. Нелинейная корреляция
- •Исходные данные по упругости водяного пара
- •5.3. Частная (парциальная) корреляция
- •Исходные данные для расчета коэффициентов частной корреляции
- •5.4. Понятие о множественной корреляции
- •5.5. Оценка различий коэффициентов корреляции
- •5.6. Ранговая корреляция
- •Оценка ландшафта для рекреационной цели
- •Расчет рангового коэффициента корреляции
- •Глава 6 регрессионный анализ
- •6.1. Линейная зависимость
- •Расчет данных для уравнения линейной зависимости
- •Расчет данных для определения точности выравнивания линии
- •6.2. Гиперболическая зависимость
- •Расчет данных для уравнения линейной зависимости
- •6.3. Параболическая зависимость
- •Расчет данных для уравнения параболической зависимости
- •6.4. Множественная регрессия
- •Расчет данных для уравнения линейной множественной регрессии
- •Расчет данных для критерия хи-квадрат
- •Глава 7 факторный анализ
- •7.1. Сущность и возможности применения
- •7.2. Последовательность операций
- •Редуцированная корреляционная матрица Rx
- •Квадрат корреляционной матрицы
- •Показатели четвертой и восьмой степени корреляционной матрицы
- •Квадрат корреляционной матрицы
- •Матрица произведений
- •Матрица первых остаточных коэффициентов корреляции r1
- •Вычисление коэффициентов при факторе f2
- •Глава 8 методы линейного программирования
- •8.1. Составные части общей модели линейного программирования
- •8.2. Распределительная модель линейного программирования
- •8.3. Правила работы с матрицей
- •Допустимые планы перевозок грузов
- •8.4. Метод потенциалов
- •8.5. Дельта-метод Аганбегяна
- •8.6. Модификация моделей транспортных задач
- •8.6.1.Открытая транспортная задача
- •8.6.2. Максимизация целевой функции
- •8.6.3. Ограничения по времени транспортировки продукции
- •Учет времени перевозки продукции
- •8.6.3. Транспортно-производственная задача
- •8.6.4. Многоэтапная транспортная задача
- •8.6.5. Многопродуктовая транспортная задача
- •8.6.6. Лямбда-задача
- •Глава 9 методы теории графов
- •9.1. Элементы теории графов
- •9.2. Топологический анализ сетей
- •9.3. Сетевые постановки транспортных задач
- •9.4. Сетевая постановка открытой транспортной задачи
- •9.5. Транспортно-производственная задача
- •9.6. Классификация с использованием графов
- •Глава 10 динамические ряды
- •10.1. Показатели динамического ряда
- •10.2. Сглаживание динамических рядов
- •10.3. Выравнивание по способу наименьших квадратов
- •Глава 11 математическое моделирование в географии
- •11.1. Математическое моделирование природных и общественных процессов
- •Глава 12 географическое поле
- •12.1. Операции над статистическими поверхностями
- •12.2. Методика составления карт изокоррелят
- •Литература Основная
- •Дополнительная
- •Приложения
- •1. Таблица достаточно больших чисел
- •2. Случайные числа
- •3. Значение критерия τ в зависимости от объема выборки n
- •4. Значения критерия Стьюдента t при различных уровнях значимости
- •6. Значения критерия хи-квадрат (Пирсона)
- •5. Критические значения f (критерия Фишера)
- •7. Минимальные существенные значения коэффициентов корреляции
- •8. Соотношение между r и z' для z' значений от 0 до 5*
- •9. Значения коэффициента корреляции рангов Спирмена для двусторонних пределов уровня значимости α
- •10. Алгоритм вычисление основных показателей описательной статистики и критерия Стьюдента в Microsoft Office Excel 2003
- •11. Алгоритм проведения однофакторного дисперсионного анализа в Microsoft Office Excel 2003
- •12. Алгоритм проведения корреляционного и регрессионного анализов в Microsoft Office Excel 2003
- •13. Алгоритм проведения кластерного анализа в Statsoft Statistica 6.0
- •14. Алгоритм проведения факторного анализа в Statsoft Statistica 6.0
- •15. Решение задачи на оптимальность
- •Оглавление
3.1. Этапы работ в кластерном анализе
Решение задач классификации объектов с использованием кластерного анализа проводится в определенной последовательности. Многомерный анализ делится на три этапа:
составляется таблица исходной информации с указанием объектов и их признаков;
проводится нормализация исходной информации с использованием среднего квадратического отклонения;
по нормализованным данным рассчитывается метрика, сроится дендрограмма и проводится содержательная интерпретация полученных результатов.
На первом этапе при формировании таблицы выбор объекта зависит от места и масштаба исследования. Каждый объект должен быть пространственно локализован и одного ранга (уровня). Показатели должны отражать существенные черты или свойства исследуемых объектов и характеризовать их всесторонне.
На втором этапе нормализация значений исходных показателей по объектам проводится потому, что исходные данные выражены обычно в разных единицах измерения и проводить между ними арифметические действия невозможно без перевода их в безразмерные единицы.
Наиболее распространенный способ нормализации показателей проводится с использованием среднего квадратического отклонения по формуле:
(3.7);
(3.8)
где
– нормализованная безразмерная величина;
– индивидуальные значения по столбцам
матрицы;
– среднее значение по столбцам матрицы;
– среднее квадратическое отклонение
по столбцам;
– объем выборки по столбцам.
Составляется матрица нормализованных показателей.
На третьем этапе по нормализованным показателям рассчитывается метрика по одному из предложенных выше способов, учитывая условия задачи. Классификацию объектов производят приемами таксономического или факторного анализа.
При количестве координат (показателей) в многомерном пространстве более трех графически интерпретировать таксономические расстояния невозможно. Поэтому таксономические расстояния определяют на основе функции расстояний. Чаще всего используется эвклидова метрика.
На основе матрицы таксономических расстояний производится группировка объектов с использованием разных приемов, из них наиболее распространенные – вроцлавская таксономия, дендро-дерево Берри, метод дендритов.
3.2. Вроцлавская таксономия
По матрице таксономических метрик (табл. 3.3) строится граф-дерево, вершинами которого будут объекты группировки.
Таблица 3.3
Матрица таксономических метрик
Объекты |
A |
B |
C |
D |
E |
F |
G |
H |
I |
J |
A |
0 |
1,15 |
5,05 |
4,22 |
3,54 |
3,30 |
2,56 |
3,62 |
3,10 |
1,67 |
B |
1,15 |
0 |
6,41 |
4,53 |
3,81 |
3,84 |
2,99 |
4,53 |
3,88 |
2,63 |
C |
5,05 |
6,41 |
0 |
4,04 |
4,82 |
4,06 |
4,83 |
3,07 |
4,34 |
4,14 |
D |
4,22 |
4,53 |
4,04 |
0 |
1,66 |
1,68 |
2,34 |
2,80 |
2,99 |
4,02 |
E |
3,54 |
3,81 |
4,82 |
1,66 |
0 |
0,96 |
1,34 |
2,76 |
2,26 |
3,72 |
F |
3,30 |
3,84 |
4,06 |
1,68 |
0,96 |
0 |
1,11 |
1,80 |
1,51 |
3,22 |
G |
2,56 |
2,99 |
4,83 |
2,34 |
1,34 |
1,11 |
0 |
2,24 |
1,38 |
3,01 |
H |
3,63 |
4,53 |
3,07 |
2,80 |
2,76 |
1,80 |
2,24 |
0 |
1,33 |
3,09 |
I |
3,10 |
3,88 |
4,34 |
2,99 |
2,26 |
1,54 |
1,38 |
1,33 |
0 |
3,18 |
J |
1,67 |
2,63 |
4,14 |
4,02 |
3,76 |
3,22 |
3,01 |
3,09 |
3,18 |
0 |
Порядок построения графа следующий (рис. 3.3). В каждом столбце или ряде зеркальной матрицы (по диагонали нули) находится минимальная величинам метрики. Вначале откладывается в выбранном масштабе наименьшая среди метрик матрицы между объектами (ЕF = 0,96). Затем последовательно к отложенным объектам откладываем минимальные метрики других столбцов-объектов: FG = 1,11, ED = 1,66, GI = 1,38, IH= =1,36, HC = 3,07, GA = 2,56, AB = 1,15, AJ = 1,67. Метрика используется только один раз. Если при построении графа на нем образуется замкнутый цикл, то замыкающее ребро цикла во внимание не принимается и вместо него откладывается ребро, которое отвечает другой минимальной метрике в данном столбце матрицы.
После построения
графа с нанесением всех объектов
проводится группировка (классификация)
объектов. Задается определенная величина
таксономической метрики, которая
является основой классификации.
Рис. 3.3. Вроцлавский дендрит
Таким образом граф разбивается на подграфы, в пределах которых объекты должны располагаться компактно (близко друг к другу) (см. рис. 3.3). В конце дается интерпретация полученных результатов с учетом исходной таблицы первоначальных данных. Чем меньшая метрика объединяет объекты на графе, тем более близкие по своим значениям исходные показатели в этих объектах.
