- •Н.К. Чертко, а.А. Карпиченко
- •Введение
- •Глава 1 элементы математической статистики
- •1.2. Генеральная совокупность и выборка
- •1.2. Обработка вариационного ряда
- •Группировка вариант в классы при дискретной изменчивости признака
- •1.3. Показатели описательной статистики
- •Статистические показатели распределения
- •Форма записи и расчета среднеквадратического отклонения
- •Сравнительная оценка состава работников предприятия
- •1.4. Оценка статистических параметров по выборочным данным
- •1.5. Теоретические функции распределения
- •1.6. Статистические критерии различия
- •Форма обработки вариант в независимых совокупностях
- •Форма обработки данных сопряженных наблюдений
- •Сравнение эмпирических и теоретических частот с использованием критерия Пирсона
- •Глава 2 дисперсионный анализ
- •2.1. Однофакторный дисперсионный анализ
- •Однофакторный дисперсионный анализ
- •Результаты однофакторного дисперсионного анализа
- •Влияние высоких доз торфа на урожай ячменя
- •2.2. Двухфакторный дисперсионный анализ
- •Двухфакторный дисперсионный комплекс
- •Результаты двухфакторного дисперсионного анализа
- •Глава 3 кластерный анализ
- •Число разбиений в зависимости от их заданной доли и вероятности
- •Число разбиений в зависимости от сочетаний числа кластеров и объектов
- •3.1. Этапы работ в кластерном анализе
- •3.2. Вроцлавская таксономия
- •Матрица таксономических метрик
- •3.3. Метод дендро-дерева б. Берри
- •Количественные показатели для зонирования города
- •Нормализованные безразмерные данные
- •Глава 4 информационный анализ
- •4.1. Показатели неопределенности объектов
- •Расчет показателя энтропии для установления оптимального времени отбора образцов
- •4.2. Применение информационного анализа в картографии
- •Решетка для вычисления информационных показателей
- •Глава 5 корреляционный анализ
- •5.1. Линейная корреляция
- •Исходные данные для расчета коэффициента корреляции
- •5.2. Нелинейная корреляция
- •Исходные данные по упругости водяного пара
- •5.3. Частная (парциальная) корреляция
- •Исходные данные для расчета коэффициентов частной корреляции
- •Итоговые значения коэффициентов корреляции
- •5.4. Понятие о множественной корреляции
- •5.5. Оценка различий коэффициентов корреляции
- •5.6. Ранговая корреляция
- •Оценка ландшафта для рекреационной цели
- •Расчет рангового коэффициента корреляции
- •Глава 6 регрессионный анализ
- •6.1. Линейная зависимость
- •Расчет данных для уравнения линейной зависимости
- •Расчет данных для определения точности выравнивания линии
- •6.2. Гиперболическая зависимость
- •Расчет данных для уравнения линейной зависимости
- •6.3. Параболическая зависимость
- •Расчет данных для уравнения параболической зависимости
- •6.4. Множественная регрессия
- •Расчет данных для уравнения линейной множественной регрессии
- •Расчет данных для критерия хи-квадрат
- •Глава 7 факторный анализ
- •7.1. Сущность и возможности применения
- •7.2. Последовательность операций
- •Корреляционная матрица r для восьми параметров агроландшафта
- •Корреляционная матрица r с приближенными значениями общностей
- •Редуцированная корреляционная матрица Rx
- •Квадрат корреляционной матрицы
- •Показатели четвертой и восьмой степени корреляционной матрицы
- •Квадрат корреляционной матрицы
- •Матрица произведений
- •Матрица первых остаточных коэффициентов корреляции r1
- •Этапы вычисления приближенных значений коэффициентов
- •Вычисление коэффициентов при факторе f2
- •Этапы вычисления приближенных значений коэффициентов
- •Глава 8 методы линейного программирования
- •8.1. Составные части общей модели линейного программирования
- •8.2. Распределительная модель линейного программирования
- •Исходные данные для землеустроительной задачи
- •8.3. Правила работы с матрицей
- •Исходные данные транспортной задачи
- •Допустимые планы перевозок грузов
- •8.4. Метод потенциалов
- •Базисный допустимый план (матрица 1)
- •Результаты первого перераспределения поставок (матрица 2)
- •Результаты второго распределения поставок (матрица 3)
- •Результаты третьего распределения поставок (матрица 4)
- •8.5. Дельта-метод Аганбегяна
- •Рабочая матрица прироста затрат
- •Первый вариант перемещения поставки
- •Второе перемещение поставки
- •Третье перемещение поставки
- •Четвертое перемещение поставки
- •8.6. Модификация моделей транспортных задач
- •8.6.1.Открытая транспортная задача
- •8.6.2. Максимизация целевой функции
- •8.6.3. Ограничения по времени транспортировки продукции
- •Учет времени перевозки продукции
- •8.6.3. Транспортно-производственная задача
- •8.6.4. Многоэтапная транспортная задача
- •Форма записи исходных данных в четырехблочную матрицу
- •8.6.5. Многопродуктовая транспортная задача
- •Мощности и спросы по торфу
- •Мощности и спросы по бурому углю
- •Оптимальный вариант распределения поставок в условных единицах
- •8.6.6. Лямбда-задача
- •Глава 9 методы теории графов
- •9.1. Элементы теории графов
- •9.2. Топологический анализ сетей
- •Матрица кратчайших расстояний между вершинами и индексы доступности вершин
- •9.3. Сетевые постановки транспортных задач
- •9.4. Сетевая постановка открытой транспортной задачи
- •9.5. Транспортно-производственная задача
- •9.6. Классификация с использованием графов
- •Выращивание сельскохозяйственных культур в разрезе областей
- •Глава 10 динамические ряды
- •Виды трендовых моделей
- •10.1. Показатели динамического ряда
- •Уровень производства промышленной продукции (пп) предприятия
- •10.2. Сглаживание динамических рядов
- •Сглаживание динамического ряда укрупнением интервалов и скользящим средним
- •10.3. Выравнивание по способу наименьших квадратов
- •Выравнивание динамического ряда по способу наименьших квадратов
- •Глава 11 математическое моделирование в географии
- •11.1. Математическое моделирование природных и общественных процессов
- •Глава 12 географическое поле
- •12.1. Операции над статистическими поверхностями
- •12.2. Методика составления карт изокоррелят
- •Литература Основная
- •Дополнительная
- •Приложения
- •1. Таблица достаточно больших чисел
- •2. Случайные числа
- •3. Значение критерия τ в зависимости от объема выборки n и уровня значимости α
- •4. Значения критерия Стьюдента t при различных уровнях значимости
- •6. Значения критерия хи-квадрат (Пирсона)
- •5. Критические значения f (критерия Фишера)
- •7. Минимальные существенные значения коэффициентов корреляции
- •8. Соотношение между r и z' для z' значений от 0 до 5*
- •9. Значения коэффициента корреляции рангов Спирмена для двусторонних пределов уровня значимости α
- •10. Алгоритм вычисление основных показателей описательной статистики и критерия Стьюдента в Microsoft Office Excel 2003
- •11. Алгоритм проведения однофакторного дисперсионного анализа в Microsoft Office Excel 2003
- •12. Алгоритм проведения корреляционного и регрессионного анализов в Microsoft Office Excel 2003
- •13. Алгоритм проведения кластерного анализа в Statsoft Statistica 6.0
- •14. Алгоритм проведения факторного анализа в Statsoft Statistica 6.0
- •15. Решение задачи на оптимальность
- •Оглавление
- •Глава 9 146
- •Глава 10 166
- •Глава 11 174
- •Глава 12 179
Нормализованные безразмерные данные
1 |
–1,42 |
0,88 |
0,7 |
0,39 |
–0,86 |
–0,31 |
1,96 |
2 |
–1,08 |
–1,4 |
1,63 |
0,78 |
–0,36 |
0,31 |
–0,13 |
3 |
–0,25 |
–0,64 |
–0,23 |
1,56 |
0,66 |
–1,25 |
–0,65 |
4 |
0,17 |
–0,33 |
0,23 |
–0,58 |
0,15 |
–1,12 |
0,4 |
5 |
1,00 |
–0,18 |
–1,16 |
–0,78 |
1,68 |
1,56 |
–1,18 |
6 |
1,42 |
1,64 |
–1,16 |
–1,37 |
–1,37 |
0,93 |
–0,39 |
3. Рассчитываем расстояния (метрику) между объектами по формуле (3.2) и проставляем в матрицу ниже:
|
1 |
2 |
3 |
4 |
5 |
6 |
1 |
0 |
2,21 |
6,26 |
3,11 |
5,62 |
4,10 |
2 |
2,21 |
0 |
3,01 |
3,01 |
4,52 |
5,40 |
3 |
6,26 |
3,01 |
0 |
2,32 |
5,21 |
5,67 |
4 |
3,11 |
3,01 |
2,32 |
0 |
3,83 |
3,90 |
5 |
5,62 |
4,52 |
5,21 |
3,83 |
0 |
3,76 |
6 |
4,10 |
5,40 |
5,67 |
3,90 |
3,76 |
0 |
4. По полученным расстояниям (метрикам) по столбцам или строкам выбираем наименьшие расстояния и откладываем их в масштабе до тех пор, пока не нанесем все объекты. Первое расстояние выбирается наименьшим.
Рис. 3.5Кластеризация объектов города (Вроцлавский дендрит)
По рис. 3.5 выделяем 2 группы объектов, близких по первоначальным показателям: 3–4с расстоянием от 2 до 3 и1,2,5,6с расстоянием от 3,01 до 4. Анализ первоначальной таблицы показывает, что объекты3и4характеризуются средними параметрами, а остальные объекты характеризуются как большими, так и меньшими параметрами. Вторая группа характеризуется контрастными значениями, поэтому внутри этой группы выделяются 2 подгруппы – в первую выделяем объекты1и2, а во вторую –5и6.
Глава 4 информационный анализ
Научно-техническая революция привела к ускоренному росту объема информации в различных областях науки, включая географию. Математическая теория информации возникла, когда появилась потребность в оценке количества передаваемых сведений. Первоначально она опиралась на отдельные положения теории вероятности; постепенно вырабатывалась собственная методика, определялся свой круг задач. На современном этапе развития теория информации ставит своей целью оценку объема информации, выявление разнообразия в природе, установление различия и сходства в этом разнообразии.
По теории вероятности информацию содержат лишь такие данные, которые устраняют существующую до их получения неопределенность. Однако не всегда приходится использовать информацию вероятностного характера, например в картографии, где обычно имеют дело с определенными данными. Это привело к разработке иных подходов в теории информации: комбинаторного и алгоритмического. Комбинаторный подход рассматривает количество информации как функцию числа элементов в конечной совокупности. Он широко используется, например, при измерении объема картографической информации. Алгоритмический подход определяет количество информации как минимальную длину программы, которая позволяет однозначно преобразовать один объект в другой.
Существует также представление об информации как о мере разнообразия. В целом разнообразие связано с различием, т. е. с отрицанием неразличимости. Простейшей единицей измерения информации является элементарное различие – различие двух объектов. Чем больше в совокупности попарно различных элементов, тем больше она содержит информации. Если рассматриваемые объекты отождествляются, то информация исчезает.
Информационный анализ применяется в некоторых областях географии при соответствующих условиях. В настоящее время разработан способ определения количества информации, содержащейся в рельефе, подсчитан объем информации субаквального биоценоза; ведутся поиски критерия связи на примерах зависимости между физическими свойствами горных пород, климатом и растительностью, компонентами и структурными частями биогеоценозов. Теория информации помогла разработать критерий пространственной дифференциации и однородности. Информационный анализ предпочтительнее использовать для выявления закономерностей в общих, а не частных явлениях.
Весь процесс информационного анализа изучаемого явления можно разбить на следующие этапы.
Предварительный этап. При сборе материалов необходимо, чтобы сопоставляемые факторы и явления территориально и во времени соответствовали друг другу во избежание неслучайных ошибок, которые могут привести к возникновению «шума». Факторы и явления должны быть представлены возможно большим числом своих состояний. Они объединяются в более широкие классы в процессе анализа.
Анализ информации. После подготовки материала к обработке оценивается связь изучаемого явления с каждым из возможных факторов, из них отбираются наиболее информативные. Рассчитываются попарные каналы связи. Оценивается общая информативность всей совокупности выбранных факторов. Определяется величина «новой информации» и размеры косвенной связи.
Процесс моделирования и его оценка. На основе анализа частных каналов связи в сопоставлении с общими строится логическая функция зависимости явлений от совокупности факторов. Оценивается ошибка распознаваний явления по величине «шума» и для составленной логической функции. Проверку достоверности анализа целесообразно проводить и после построения частных каналов связей. Если логическая функция недостаточно полно описывает изменения состояний явления (по распределению ошибок), пытаются найти дополнительные факторы, которые смогли бы улучшить распознающую систему.
Прогноз. Если в анализ вошли материалы с достаточным разнообразием состояний и собранные на значительной территории, то прогноз можно осуществить для любой точки, характеристики которой соответствуют состояниям факторов, включенных в анализ.
Преимущество информационных методов заключается в том, что они, в отличие от статистического, не требуют применения закона нормального распределения, линейности связей, независимости признаков, метричности и упорядоченности.
С практической точки зрения важно уметь численно оценивать степень неопределенности проводимых исследований (энтропия), чтобы их сравнить между собой. Степень неопределенности каждого опыта выражается числом К, поэтому искомая численная характеристика степени неопределенности должна являться функцией числа К. Для К=1 (неопределенность полностью отсутствует) функция должна обращаться в нуль и возрастать при увеличении числа К.
За меру неопределенности опыта (показатель энтропии), имеющего К равновероятных исходов, принято число lg К. Чаще всего пользуются логарифмами при основании два (f(K) = log2К). В данном случае за единицу измерения степени неопределенности принимается неопределенность опыта, имеющая два равновероятных исхода (например, при подбрасывании монеты равная вероятность появления орла или решки). Такая единица измерения неопределенности называется двоичной единицей (бит). Если пользоваться десятичными логарифмами, то за единицу степени неопределенности принимается неопределенность опыта, имеющего 10 равновероятных исходов. Такая десятичная единица примерно в 3,32 раза крупнее двоичной единицы (log2 K ≈ 3,32).
Для перевода десятичных единиц в биты полученную величину делят на log 2 = 0,30103.
При применении натуральных логарифмов энтропия выражается в нитах. Если величина энтропии получена с применением натуральных логарифмов, а ее требуется перевести в биты, т. е. в двоичную систему, то этот расчет осуществляется путем деления величины в нитах на ln 2 = = 0,69315.
Чтобы перевести логарифм числа х с основанием b в логарифм с основанием а, используется формула
logax = logbx / logba (4.1)
Форма представления вероятности для опыта, имеющего К равновероятных исхода, имеет следующий вид:
исход опыта А1А2…АK
вероятность 1/K 1/K … 1/K
Поскольку общая неопределенность опыта равна lg К, то каждый отдельный исход, имеющий вероятность 1/К, вносит неопределенность, равную (1/К) lg K = (–1/К) lg 1/К. Аналогично этому для опыта α мера неопределенности вытекает из таблицы вероятности:
исход опыта А1А2…АK
вероятность P(A1) P(A2) … P(AK)
и равна
– P(A1)lgP(A1) – P(A2)lgP(A2) – … – P(AK)lgP(AK).
Приведенное выражение называют энтропией опыта α и обозначают через Н (α).
Энтропия характеризуется следующими свойствами. Ее величина не принимает отрицательных значений. Так как 0≤ P(A)≤1, то lg P(A) не может быть положительным, а – P(A1)lgP(A1) – отрицательным. При Р→0 произведение Р ∙ lg Р убывает, поэтому .
Если P(Ai) представляет собой большую величину (близкую к единице), то член P(Ai)lgP(Ai)будет невелик, так как при Р→1 lg Р→0. В области между вероятностями P = 0,2 и P = 0,6 функция P lg P принимает наибольшие значения и соответствующая кривая меняется на графике сравнительно плавно (рис. 4.1). Поэтому в данной ситуации существенные изменения выроятности мало отражаются на величине энтропии.
Рис. 4.1. Значение функции –Р lgР
Пример.Предположим, что для г. Минска вероятность того, что 1 июля выпадут осадки, равна 0,4, а вероятность того, что дождя не будет – 0,6 (опыт α1); вероятность того, что в г. Минске 1 ноября пройдет дождь – 0,65, вероятность того, что выпадет снег – 0,15 и вероятность того, что 1 ноября вовсе не будет осадков – 0,2 (опыт α2). В какой из двух указанных дней погоду следует считать более неопределенной?
Опыты α1 и α2по выяснению состояния погоды представим следующим образом:
Опыт α1
исход опыта дождь без дождя
вероятность 0,40 0,60
Опыт α2
исход опыта дождь снег без дождя
вероятность 0,65 0,15 0,20
Энтропия обоих опытов равна
H (α1) = – 0,4lg0,4 – 0,6lg0,6 ≈ 0,292;
H (α2) = – 0,65lg0,65 – 0,15lg0,15 – 0,2lg0,2 ≈ 0,385.
Поскольку величина энтропии в опыте α2больше величины энтропии в опытеα1погоду 1 ноября в г. Минске следует считать более неопределенной, чем 1 июля. При этом учитывается процент случаев, когда прогноз оправдывается: вероятностьР= =0,4 = 40%,P= 0,6 = 60% и т. д.
При сравнении опытов заключение представляет интерес для оценки качества предсказания явлений.