
- •Бытие, гл.8, 4 введение
- •Глава 1. Материал и методика
- •После проведения анализа части набора признаков
- •Каноклас 6.0
- •Глава 2. Антропологические варианты современного населения кавказа
- •Индо-средиземноморские варианты в населении Кавказа
- •Брахикефальные антропологические варианты северного Азербайджана
- •Кавкасионские антропологические варианты в населении Дагестана
- •Переднеазиатские антропологические варианты в населении Армении и Грузии
- •Антропологические варианты в населении Северного Кавказа и Грузии
- •Соотношения выделенных для населения Кавказа антропологических вариантов
- •Глава 3. Антропологические варианты кавказа, передней азии и памира
- •Современное население Афганистана
- •Современное население Индии
- •Соотношение антропологических вариантов, выделенных в населении Афганистана и Индии
- •Современное население Передней Азии
- •Сравнительное рассмотрение антропологических вариантов населения Кавказа, Передней Азии и Северной Индии
- •Глава 4.
- •Антропологические варианты кавказа, восточной и центральной европы
- •Сравнительное рассмотрение групп населения
- •Кавказа, Восточной и Центральной Европы
- •Центральной Европы и Балкан
- •Соотношение антропологических вариантов, выделенных в населении Кавказа, Восточной и Центральной Европы
- •Приложение 1. Список выборок, данные по которым были использованы в работе
- •Приложение 2. Усредненная внутригрупповая корреляционная матрица расоводиагностических соматологических признаков
- •Литература
- •Содержание
- •Глава 1.Материал и методика 3
- •Глава 2.Антропологические варианты современного
- •Глава 3. Антропологические варианты кавказа, передней
- •Глава 4. Антропологические варианты кавказа, восточной
После проведения анализа части набора признаков
вернуться к исходному набору всех признаков.
< Esc - Возврат >
Рисунок 3.Меню отбора признаков для проведения анализа данных в программе
КАНОКЛАС 6.0
В программе предусмотрена возможность как проведения анализа по всем признакам, информация по которым содержалась в извлечении из базы данных и была считана в программные файлы, так и рассмотрение любой их части (рис.3).
<
Esc = Выход >
Ввод данных Редактирование Наборы признаков Вычисления
<
F1 - Помощь >
ВЫБЕРИТЕ ВАРИАНТ ВЫЧИСЛЕНИЙ
Проведение канонического анализа.
Проведение кластерного анализа и многомерного
шкалирования.
Вычисление средних величин для кластеров, найденных
по результатам канонического анализа.
Упорядочение значений канонических переменных по
градациям.
Ввод данных о территориальном соседстве выборок при
проведении географического кластерного анализа.
< Esc - Возврат >
Рисунок 4. Меню проведения вычислений в программе
Каноклас 6.0
- 15 -
Вычисления в программе заключаются в проведении канонического и кластерного анализов и многомерного шкалирования. Основное уравнение канонического анализа имеет вид
(Sb - liSw) ci = 0 , (2)
где Sb - межгрупповая ковариационная матрица, Sw - внутригрупповая ковариационная матрица, li - некоторое i-е собственное число, ci - i-й собственный вектор. Каждый i-й вектор ci = [сi1 ci2 ci3 ... cim] включает коэффициенты из формулы (1), при помощи которых осуществляется переход от средних величин исходных признаков Mj к средним значениям канонических переменных Ki. Число li является межгрупповой дисперсией i-й канонической переменной.
Внутригрупповая ковариационная матрица Sw может быть получена в виде
Sw = VRwV,
где Rw- стандартная внутригрупповая корреляционная матрица, в качестве элементов которой можно использовать коэффициенты корреляции из приложения 2, V – диагональ-ная матрица, включающая стандартные значения внутригрупповых средних квадратичес-ких отклонений исходных признаков
S1 0 0 ... 0
0 S2 0 ... 0
V = 0 0 S3 ... 0 (3)
.. ... ... ...
0 0 0 ... Sm
Межгрупповая ковариационная матрица описывает межгрупповую изменчивость и коррелированность признаков
Sb11 Sb12 Sb13 ... Sb1m
Sb12 Sb22 Sb23 ... Sb2m
Sb = Sb13 Sb23 Sb33 ... Sb3m (4)
... ... ... ... ...
Sb1m Sb2m Sb3m ... Sbmm
включает межгрупповые дисперсии и ковариации исходных признаков. Первые могут быть получены из средних величин исходных признаков по формуле
1 k
Sbii
=
Nt(Mit
- Mi)2
,
(5)
k – 1 t=1
где Mit - средняя арифметическая величина i-го признака в t-й выборке, Mi - общая сред-няя этого признака, найденная по всем наблюдениям, суммирование производится по всем k выборкам. Межгрупповые ковариации имеют аналогичный вид
1 k
Sbij = Nt(Mit - Mi) (Mjt - Mj) , (6)
k – 1 t=1
- 16 -
Уравнение канонического анализа (2) может быть записано в виде
(DRbD - liRw) ci = 0 , (7)
где Rb - межгрупповая корреляционная матрица, включающая коэффициенты корреляции, находимые по формуле
Sbij
rbij
= ,
Sbii Sbjj
а матрица
D1
0 0 ... 0
0 D2 0 ... 0
D = 0 0 D3 ... 0
... ... ... ... ...
0 0 0 ... Dm
включает отношения межгрупповых и внутригрупповых средних квадратических отклонений для каждого признака
Sbii
½
Di =
Si
Процедура решения уравнения (7) позаимствована нами из руководства С.Р.Рао (1968). Здесь по методу Халецкого для матрицы Rw находится треугольная матрица T-1', такая, что произведение T-1T-1'= Rw -1 дает матрицу обратную Rw. Тогда уравнение (7) можно свести к уравнению
(T-1'DRbDT-1' - liI) bi = 0,
которое решается стандартным способом с получение собственных векторов b1, b2, ..., bm и чисел l1, l2, ...lm. Последние оказываются теми же, что и аналогичные числа из уравнения (7). Для получения искомых векторов ci можно воспользоваться соотношением ci = bi'T-1'.
Для удобства значения средних величин канонических переменных для всех выборок, рассматриваемых в каком-то анализе получаются так, чтобы их общие межгрупповые средние величины были равны нулю. Это достигается нахождением для все исходных признаков общих средних величин Mj0. с дальнейшей подстановкой в формулу (1) и получением общих средних величин канонических переменных
Mki0. = c1i M10. + c2i M20. + ... + cmi Mm. .
Центрированные значения средних арифметических значений канонических переменных для каждой t-й выборки получаются в виде
Kti = c1i Mt1 + c2i Mt2 + ... + cmi Mtm - Mki0. .
В результате по любому значению Kti сразу можно сказать на сколько значений внутри-группового среднего квадратического отклонения t-я выборка отстоит от межгруппового центра.
Центрированность значений канонических переменных делает удобным контроль оши-бок ввода информации. Канонический анализ направлен на выявление наиболее значи-тельных межвыборочных различий независимо от того, чем они вызваны - ошибками значений признаков или таксономическими закономерностями изменчивости. Ошибки ввода данных сразу же проявляются в том, что содержащие их выборки, отклоняются от центра
- 17 -
ОТБОР ВКЛЮЧАЕМЫХ В АНАЛИЗ ВЫБОРОК
21 *грузины мтиулы душетские Сделать выбор - Enter.
22 *грузины гудамакарцы душе
23 *грузины ингилойцы цители Пред.стр. - курсор вверх
24 *грузины месхи ахалцихски
25 *грузины месхи ахалцихски След.стр. - курсор вниз.
26 грузины джавахи ахалцихс
27 грузины джавахи ахалкала Завершение отбора - Esc.
28 грузины имеретины самтре
29 грузины имеретины зестаф
30 грузины имеретины чиатур
31 грузины имеретины вански
32 грузины имеретины орджон
33 грузины имеретины сачхер
34 грузины имеретины маяков
35 грузины имеретины тержол
36 грузины имеретины ткибул
37 грузины мегрелы цхакаевс
38 грузины мегрелы зугдидск
39 грузины мегрелы гальские
40 грузины мегрелы цаленджи
Рисунок 5. Пример фрагмента списка для отбора групп населения
в программе КАНОКЛАС 6.0
на значительную величину, намного превышающую уровень 4 - 5 внутригрупповых "сигм". При вычислениях программа отслеживает такие случаи, оповещает об их существовании и предлагает проведение их редактирования. Во время редактирования можно решить свидетельствует ли такого рода девиация о присутствии ошибок ввода информации или о крайнем морфологическом своеобразии выборки. В первом случае сразу можно внести необходимые исправления.
В процессе работы часто возникает необходимость оперирования (редактирования, вычислений и др.) только с частью выборок, импортированных из базы данных. Это достигается просмотром списка всех выборок (рис.5) и отметкой только тех из них, с которыми необходимо работать.
Кроме проведения самого канонического анализа меню вычислений (рис.4) содержит возможность получения наборов средних величин для исходных признаков в некоторых объединениях групп населения, выделенных по результатам этого анализа. Отбор выборок для вычисления по ним средних величин осуществляется при помощи списка (рис.5). Для облегчения построения географических карт значений канонических переменных меню вычислений содержит возможность упорядочения этих значений по градациям. Для это
- 18 -
го достаточно задать лишь количество таких градаций, после чего выборки упорядочиваются в виде ранжированного ряда по значениям канонической переменной. Разноска групп в градации осуществляется по граничным значениям, совпадающим с соответствующими межгрупповыми квантилями, так что количество выборок в каждой градации оказывается примерно одинаковым.
Кластерный анализ и многомерное шкалирование осуществляется с применением расстояний типа метрики D2 Махаланобиса. Для получения матрицы таких расстояний используется стандартная процедура (Игнатьев, Пугачева, 1961). С применением той же треугольной матрицы T-1', которая используется в каноническом анализе, средние величины исходных признаков Mtj для каждой t-й выборки трансформируются в средние значения новых признаков Ytj в виде
Yt = T-1'dt ,
где Yt - столбец значений Ytj, т.е.- [Yt1, Yt2, ..., Ymj], dt - столбец нормированных на внутри-групповые "сигмы" средних величин исходных признаков, т.е. – [Mt1/S1, Mt2/S2, ..., Mtm/Sm]. Обычное расстояние Евклида, найденное по средним величинам признаков Y равно расстоянию Махаланобиса.
m
D2tl = (Yjt -Yjl)2
j=1
Полученная матрица расстояний затем по выбору пользователя может быть подвергнута кластеризации или многомерному шкалированию. Для проведения кластерного анализа используются иерархические процедуры: 1) средней связи, 2) минимальной внутрикластерной дисперсии (Уорда), 3) ближайшего соседа, 4) дальнего соседа, 5) центроидов, 6) медиан. Их различия связаны со неодинаковым способом вычисления на каждом шаге процедуры расстояний для вновь образованного кластера. В программе для этих целей использована специальная формула Ланса-Уильямса (см., например Уиллиамс, Ланс, 1986), позволяющая унифицировать этот процесс для разных методик кластеризации.
При проведении кластеризации всегда возникает проблема определения уровня разрезания полученной дендрограммы с целью получения набора наиболее естественно образовавшихся кластеров. Очевидно, что такие кластеры должны включать только относительно сходные (имеющие небольшие величины взаимных расстояний) таксономические единицы. Для достижения этого в программе КАНОКЛАС 6.0 используются рекомендации В.В.Александрова и Н.Д.Горского (1983). Они основаны на таких соображениях. При осуществлении каждого (1-го, 2-го 3-го и т.д.) шага кластеризации новые кластеры об-разуются на постепенно возрастающих уровнях наименьших расстояний: D1, D2, D3 и т.д. До тех пор пока увеличение этого уровня идет небольшими темпами, в кластеры объединяются относительно сходные единицы. Однако, первый же резкий скачок уровня расстояния, произошедший, например, на k-м шаге, свидетельствует о том, что именно на нем впервые в новый кластер, образовавшийся на этом шаге, вошли весьма отдаленные единицы. Это должно явиться сигналом прекращения процесса выделения кластеров. Проследить появление такого скачка можно по специальному графику, который можно условно называть диаграммой Александрова-Горского, где для каждого шага кластеризации (2, 3, 4 и т.д.), номер которого откладывается по горизонтальной шкале, по вертикальной оси наносятся i - значения скорости увеличения уровня таксономического
- 19 -
расстояния, на котором образуются кластеры - 2 = D2 - D1, 3 = D3 - D2, 4 = D4 - D3 и т.д. Резкое увеличение уровня значений k на некотором k-м шаге, будет свидетельствовать о том, что на предыдущем этапе кластеризации была достигнута структура относительно компактных кластеров, и процедуру можно завершить. В программе КАНОКЛАС 6.0 одновременно с выводом на дисплей диаграммы Александрова-Горского производится автоматический выбор наибольшего уровня i, который может также быть определен и с клавиатуры. В соответствии с этим уровнем осуществляется выбор перечня кластеров и вычисление для них наборов средних величин исходных признаков. При необходимости можно повторить кластеризацию с выбором иной процедуры или с разрезанием дендрограммы на ином шаге.
Кроме обычной версии типологического кластерного анализа программа содержит также возможность проведения так называемого географического кластерного анализа (Хаггет, 1968). В этом случае на каждом шаге процедуры объединяются не просто наиболее близкие по расстоянию единицы, но учитывается также географическое соседство групп населения. Для этого вводится так называемая матрица территориальной смежности. Для каждого сочетания i-й и j-й выборок в матрицу вводится 1, если эти выборки на географической карте размещены по соседству, или 0 - если такой смежности нет. Тогда, объединению на каждом шаге иерархической процедуры подвергаются только территориально соседние группы населения, имеющие элемент матрицы территориальной смежности, равный 1 и обнаруживающие также близость по уровню таксономического расстояния. В результате получаются кластеры, соответствующие географическим территориям, включающим близкие по признакам выборкам.
Для проведения многомерного шкалирования матрицы расстояний Махаланобиса в программе КАНОКЛАС используется встроенный в нее соответствующий модуль из статистического пакета SYSTAT 3.0, при помощи которого проводится неметрическое шкалирование по Краскелу или по Гуттману.
* * *
В нашем исследовании использовалась следующая схема анализа данных. Канонический анализ сначала применялся к большим наборам выборок с целью получения объективной и наглядной картины межпопуляционной вариации высокого таксономического ранга с возможным выделением крупных кластеров. Затем каждый из них в свою очередь подвергался анализу, в результате чего получались все более дробные антропологические подразделения. Этот процесс продолжался до тех пор, пока выделяемые антропологи-ческие варианты не оказывались достаточно неструктурированными.
После выявления таким образом антропологической структуры, рассмотрению при помощи многомерного шкалирования подвергались уже наборы средних, вычисленные для антропологических вариантов, в целом. В результате можно было получить схематическую, но более ясную картину расовой вариации. Дискретные закономерности, возможно существующие в этой картине, выявлялись с параллельным применением иерархического кластерного анализа матриц таксономических расстояний D2-Махаланобиса. Среди множества различных способов выделения кластеров использовался метод минимальной внутрикластерной дисперсии (процедура Уорда), которая при специальной эксперимен-
- 20 -
тальной проверке продемонстрировала хорошую работоспособность по сравнению с другими аналогичными процедурами (Мандель, 1988). Подобный прием, кроме того, что давал более ясную, хотя и схематическую картину антропологической вариации позволял осуществить своего рода перепроверку результатов канонического анализа с использованием методик анализа данных, основанных на иных математических соображениях. В случае совпадения итогов, полученных при использовании разных способах рассмотрения материала: каноническим анализом, многомерным шкалированием, кластеризацией - выводы можно считать более надежными.
- 21 -