- •Введение
- •Аналитический обзор литературы
- •Структурно – металлургические факторы качества конструкционной стали
- •1.2 Разброс параметров технологии производства и сопутствующие дефекты
- •1.3 Контроль процесса и продукта производства
- •1.4 Виды неоднородности качества продукции
- •1.4.1 Неметаллические включения
- •1.4.2 Примеси в стали
- •1.5 Применение классической статистики и границы ее применимости
- •1.5.1 Использование статистического анализа при обработке массивов данных
- •1.5.2 Использование непараметрической статистики, приемов когнитивной графики и различных нетривиальных методов
- •1.5.2.1 Непараметрические критерии согласия
- •1.5.2.2 Методы когнитивной графики
- •1.5.2.3 Иерархический кластерный анализ
- •1.5.2.4 Методы синергии пространства измерений
- •Список использованных источников
1.5.2.2 Методы когнитивной графики
Когнитивная графика – это совокупность приемов и методов образного представления условий задачи, которое дает возможность либо сразу увидеть решение, либо извлечь подсказку для его определения.
Методы когнитивной графики применяются в искусственном интеллекте в системах, способных преобразовывать текстовые описания задач в их образные представления, и при генерации текстовых описаний картин, появляющихся во входных и выходных блоках интеллектуальных систем, а также в человеко-машинных системах, специализированных для решения сложных, низко формализуемых задач.
Д. А. Поспелов сформулировал три основных задачи когнитивной графики:
Создание таких моделей представления познаний, в которых была бы возможность однообразными средствами изображать как объекты, свойственные для логического мышления, так и образы-картины, с которыми оперирует образное мышление.
Визуализация тех человеческих познаний, для которых пока невозможно подобрать текстовые изображения.
Поиск путей перехода от наблюдаемых образов-картин к формулировке определенной гипотезы о тех механизмах и процессах, которые скрыты за динамикой наблюдаемых картин.
Наиболее простой
пример использования когнитивной
графики это решение системы линейных
уравнений
без привлечения математического
аппарата. Введём систему
координат и построим два графика,
уравнениями которых являются выражения,
входящие в систему. Решение системы
задается точкой пересечения прямых.
Рисунок 7 – Пример решения системы уравнений методом когнитивной графики
Использование графики в экспериментальных работах не только повышает скорость передачи информации и увеличивает уровень ее понимания, но и способствует развитию таких необходимых для специалиста любой сферы качеств, как интуиция, образное мышление [38].
Также влияние интерактивной компьютерной графики привело к зарождению инновационного направления в проблематике искусственного интеллекта, названного когнитивной (т.е. способствующей познанию) компьютерной графикой.
Внедрение когнитивной графики дает возможность пользователю, не анализируя большого количества данных сделать определенные выводы. Информация может быть показана когнитивным образом: сектором, гистограммой, крестом, кругом и т.д., части, которых закрашены различными цветами и несут определенный смысл [39].
1.5.2.3 Иерархический кластерный анализ
Первое применение кластерный анализ нашел в социологии. Название кластерный анализ происходит от британского слова cluster – кисть, масса. Впервые в 1939 был определен предмет кластерного анализа и сделано его описание исследователем Трионом (Tryon). Основное назначение кластерного анализа – партиция множества исследуемых объектов и показателей на однородные в соответствующем понимании категории или кластеры. Это означает, что решается задача систематизации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно использовать в самых разнообразных вариантах, даже в тех случаях, когда речь идет о простой сортировке, в которой все сводится к формированию групп по количественному сходству [40].
Немалое преимущество кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от основной массы математико-статистических методов не накладывает практически никаких ограничений на вид рассматриваемых объектов, и дает возможность анализировать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для моделирования конъюнктуры, когда данные имеют разнообразный вид, препятствующий использование классических подходов [41].
Кластерный анализ позволяет исследовать довольно большой объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными и наглядными.
Принципиальное значение кластерный анализ имеет применительно к совокупностям временных рядов. Здесь можно выделять периоды, когда значения соответствующих показателей были довольно сродными, а также определять группы временных рядов, динамика которых в наибольшей степени схожа.
Кластерный анализ можно использовать циклически. В этом случае исследование выполняется до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая может в значительной степени изменить направленность и подходы последующего использования кластерного анализа. Этот процесс можно представить системой с обратной связью.
В задачах моделирования весьма перспективно сочетание кластерного анализа с другими количественными методами (например, с регрессионным анализом).
Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения: В частности, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров [42].
В кластерном анализе считается, что:
- выбранные характеристики допускают в принципе желательное дробление на кластеры;
- единицы измерения (диапазон) выбраны правильно.
Выбор масштаба играет большую роль. Как правило, данные нормализуют вычитанием среднего и делением на стандартное отклонение, так что дисперсия оказывается равной единице.
Задача кластерного анализа состоит в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов G на т (т – целое) кластеров (подмножеств) Qi, Q2, Qm, так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения. Объекты, относящиеся к одному и тому же кластеру, были сродными, в то время как объекты, принадлежащие разным кластерам, были неоднородными.
Решением задачи кластерного анализа являются разбиения, удовлетворяющие определенному критерию оптимальности. Этот критерий может представлять собой некоторый функционал, эксплицирующий уровни желательности различных разбиений и сортировок, который называют целевой функцией.
Парадигматика масштаба в кластерном анализе имеет большое значение. Рассмотрим пример. Представим себе, что данные признака х в наборе данных А на два порядка больше данных признака у: значения переменной х находятся в диапазоне от 100 до 700, а значения переменной у – в диапазоне от 0 до 1.
Тогда, при расчете величины расстояния между точками, отражающими положение объектов в пространстве их свойств, переменная, имеющая большие значения, т.е. переменная х, будет фактически полностью преобладать над переменной с малыми значениями, т.е. переменной у. Таким образом из-за неоднородности единиц измерения признаков становится невозможно корректно рассчитать расстояния между точками [43].
Эта проблема решается при помощи предшествующей стандартизации переменных.
Стандартизация или нормирование приводит значения всех реорганизованных переменных к единому спектру значений путем выражения через соотношение этих значений к определенной величине, отражающей некоторые свойства конкретного признака. Существуют разнообразные способы нормирования исходных данных.
Наряду со стандартизацией переменных, существует вариант придания каждой из них конкретного коэффициента важности, или веса, который бы отражал значимость соответствующей переменной. В качестве весов могут представлять экспертные оценки, полученные в ходе выборочного опроса экспертов – специалистов предметной области или информация из литературных источников. Полученные произведения нормированных переменных на соответствующие веса позволяют получать дистанции между точками в многомерном пространстве с учетом разного веса переменных [44].
В ходе экспериментов возможно сопоставление результатов, полученных с учетом экспертных оценок и без них, и выбор лучшего из них.
Проблема измерения близости объектов неизменно появляется при любых трактовках кластеров и разнообразных методах классификации.
Отметим основополагающие трудности, возникающие при этом: неоднозначность предпочтения способа нормировки и нахождения дистанции между объектами
Однако определить расстояние между объектами в данном случае нельзя, поскольку признаки измерены в разных единицах измерения. Необходимо нормирование показателей, переводящая их в безразмерные величины: тогда измерение близости объектов становится правомерным.
В кластерном анализе для количественной оценки сродства вводится понятие метрики. Сходность или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Если каждый объект описывается к признаками, то он может быть представлен как точка в к-мерном пространстве, и сходство с другими объектами будет формироваться как соответствующее расстояние [45].
Расстоянием (метрикой) между объектами в пространстве параметров называется такая величина dab, которая удовлетворяет аксиомам:
1) dab >0, dab =0
2) dab =dba
3) dab +dbc ³dac
Мерой близости (сходства) обычно называется величина μab, имеющая предел и возрастающая с возрастанием близости объектов:
1) ab непрерывна
2) ab ba
3) 1 ab 0
Существует возможность простого перехода от расстояний к мерам близости:
(19)
Выбор дистанции между объектами считается узловым моментом исследования, от него во многом находится в зависимости конечный вариант разбиения объектов на классы при данном алгоритме разбиения.
Объединение или метод древовидной кластеризации применяется при формировании кластеров несходства или дистанции между объектами. Эти дистанции могут формироваться в одномерном или многомерном пространстве. Например, если вы должны кластеризовать типы еды в кафе, то можете принять во внимание количество содержащихся в ней калорий, цену, субъективную оценку вкуса и т.д. Наиболее прямой путь вычисления расстояний между объектами в многомерном пространстве состоит в вычислении евклидовых расстояний. Если вы имеете двух- или трёхмерное пространство, то эта мера является истинным геометрическим расстоянием между объектами в пространстве (как будто дистанции между объектами измерены рулеткой). Однако алгоритм объединения не «беспокоится» о том, считаются ли «предоставленные» для этого расстояния настоящими или некоторыми другими производными мерами дистанции, что более важно для исследователя; и задачей исследователей представляется выбрать корректный метод для неординарных применений [46].
Евклидово расстояние. Это, по-видимому, наиболее общий тип дистанции. Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:
расстояние (x,y) =
{
i (xi -
yi)2 }1/2
(20)
Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным. Это обычный способ его вычисления, который имеет определенные преимущества (например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом). Тем не менее, на дистанции могут сильно влиять отличия между осями, по координатам которых рассчитываются эти дистанции. К примеру, если одна из осей измерена в сантиметрах, а вы затем переведете ее в миллиметры (умножая значения на 10), то конечное евклидово расстояние (или квадрат евклидова расстояния), вычисляемое по координатам, сильно модифицируется, и, как следствие, результаты кластерного анализа могут в значительной степени отличаться от предшествующих [47].
Квадрат евклидова расстояния. Иногда может возникнуть желание возвести в квадрат стандартное евклидово расстояние, чтобы придать большие веса более отдаленным друг от друга объектам. Это расстояние вычисляется следующим образом (см. также замечания в предыдущем пункте):
расстояние (x,y) = i (xi - yi)2 (21)
Расстояние городских кварталов (манхэттенское расстояние). Это расстояние является просто средним разностей по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле:
расстояние (x,y) = i |xi - yi| (22)
Расстояние Чебышева. Это расстояние может оказаться эффективным, когда желают определить два объекта как «различные», если они различаются по какой-либо одной координате (каким-либо одним измерением). Расстояние Чебышева вычисляется по формуле:
расстояние (x,y) = Максимум|xi - yi| (23)
Степенное расстояние. Часто желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты значительно отличаются. Это может быть достигнуто с применением степенного расстояния. Степенное расстояние вычисляется по формуле:
расстояние (x,y) = ( i |xi - yi|p)1/r (24)
где r и p – параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как «работает» эта мера. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра – r и p, равны двум, то это расстояние совпадает с расстоянием Евклида.
Процент несогласия. Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле:
расстояние (x,y) =
(Количество xi
yi)/
i (25)
Так как суть иерархической кластеризации заключается в методичном соединении наименьших кластеров в большие или делении больших кластеров на наименьшие, то существует две группы иерархических методов [48,49,50]:
1) Иерархические агломеративные методы (AGNES)
Данная группа методов характеризуется методичным соединением исходных составляющих и подходящим сокращением количества кластеров.
В начале работы алгоритма все объекты считаются единичными кластерами. На первостепенном шаге максимально схожие объекты соединяются в кластер. На дальнейших шагах соединение продолжается до тех пор, пока все объекты не будут образовывать один кластер.
2) Иерархические дивизимные методы (DIANA)
Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на дальнейших шагах дробится на младшие кластеры, в последствии
сформируется порядок расщепляющих групп.
Положение работы описанных ранее групп методов в виде дендрограммы представлен на рисунке 8.
Рисунок 8 – Дендрограмма агломеративных и дивизимных методов
Иерархические методы кластеризации в свою очередь еще различаются законами построения кластеров. В качестве законов выступают критерии, которые применяются при решении вопроса о «сродстве» объектов при их соединении в группу (агломеративные методы) либо делении на группы (дивизимные методы). Различают алгоритмы включения последнего объекта в существующий кластер и алгоритмы соединения кластеров. По сути это разные способы вычисления близости [51]. В общем виде алгоритм иерархического кластерного анализа можно представить в виде очередности процедур:
1) Значения исходных переменных нормируются.
2) Рассчитывается матрица расстояний или матрица мер близости.
3) Выбирается пара наиболее близких кластеров. По выбранному алгоритму соединяются эти два кластера. Новому кластеру присваивается наименьший из номеров объединяемых кластеров.
4) Пункты 2, 3 и 4 повторяются до тех пор, пока все объекты не будут соединены в один кластер или до достижения установленного «порога» близости.
Кластерный анализ дает широкий подбор таких алгоритмов [52]. В наибольшей степени общераспространенные методы это:
1) Расстояние “Ближайшего соседа ” (Одиночная связь).
Расстояние равно расстоянию между ближайшими объектами классов.
min (Ki,Kj) = min P (xi,xj) (26)
2) Расстояние “Дальнего соседа” (Полная связь). Расстояние равно расстоянию между самыми дальними объектами классов.
max (Ki,Kj) = max P (xi,xj) (27)
3) Невзвешенное попарное среднее. В данном методе дистанция между двумя различными кластерами рассчитывается как среднее расстояние между всеми парами объектов в них. Метод результативен, когда объекты в действительности создают различные рощи, однако он действует постоянно качественно и в вариантах протяженных (цепочного типа) кластеров.
4) Взвешенное попарное среднее. Метод имеет схожесть с способом невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответственных кластеров (т.е. число объектов, содержащихся в них) применяется в качестве весового коэффициента. Поэтому рекомендуемый метод должен быть использован (скорее даже, чем предыдущий), когда ожидаются разные объемы кластеров.
5) Невзвешенный центроидный метод. В этом методе дистанция между двумя кластерами предопределяется как дистанция между их центрами тяжести.
6) Взвешенный центроидный метод (медиана). Тот метод идентичен предыдущему, за исключением того, что при вычислениях применяются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) многозначительные отличия в объемах кластеров, этот метод оказывается преимущественнее предыдущего.
7) Метод Уорда. В этом методе в качестве целевой функции используют внутригрупповую сумму квадратов отклонений, которая есть ни что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге соединяются такие два кластера, которые приводят к наименьшему росту целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на соединение близко находящихся кластеров [53]. Преимуществом иерархических методов кластеризации считается их наглядность.
Иерархические алгоритмы связаны с построением дендрограмм (от греческого dendron-«древо»), которые представляют собой последствие иерархического кластерного анализа. Дендрограмма описывает сродство единичных точек и кластеров друг к другу, представляет в графическом виде очередность соединения (деления) кластеров.
Дендрограмма (dendrogram) – древоподобная диаграмма, содержащая n уровней, каждый из которых соответствует одному из шагов процесса методичного укрупнения кластеров. Дендрограмму также называют древовидной схемой, деревом соединения кластеров, деревом иерархической структуры.
Дендрограмма представляет собой вложенную сортировку объектов, которая модифицируется на многообразных уровнях иерархии [54].
Существует большое количество способов построения дендограмм. В дендограмме объекты могут размещаться вертикально или горизонтально. Пример вертикальной дендрограммы приведен на рисунке 8.
Числа 11, 10, 3 и т.д. соответствуют номерам объектов или наблюдений исходной выборки. Мы видим, что на первом шаге каждое наблюдение представляет один кластер (вертикальная линия), на втором шаге наблюдаем объединение таких наблюдений: 11 и 10; 3, 4 и 5; 8 и 9; 2 и 6. На втором шаге продолжается объединение в кластеры: наблюдения 11, 10, 3, 4, 5 и 7, 8, 9. Данный процесс продолжается до тех пор, пока все наблюдения не объединятся в один кластер.
Метод Уорда
Метод Уорда – это альтернативный подход для проведения кластерного анализа. В основном, вместо использования метрик и мер связей данный метод большее рассматривает проблему с точки зрения дисперсионного анализа. Он подходит скорее для анализа количественных переменных, а не для бинарных переменных. Основываясь на том, что кластеры многомерных наблюдений должны иметь примерно эллиптическую форму, считается, что данные из каждого кластера будут реализованы в многомерное распределение. То есть, если построить p-мерную точечную диаграмму, кластеры будут похожи на эллипс [53].
Данный метод предполагает, что первоначально каждый кластер состоит из одного объекта. Сначала объединяются два ближайших кластера. Для них определяются средние значения каждого признака и рассчитывается сумма квадратов отклонений:
Vl = ∑i∑j(xij - xjl)2 (28)
где: l – номер кластера, i – номер объекта (i = 1,2, ... , nl), nl – количество объектов в l – том кластере, j – номер признака (j = 1,2, ..., k), k – количество признаков, характеризующих каждый объект.
Использование метода Уорда начинается с образования n кластеров, куда входит по одному наблюдению. На первом шаге формируется n-1 кластер, где в одном из кластеров объединяется два наблюдения. Вычисляется ошибка сумм квадратов и r- квадрат:
(29)
(30)
На следующем этапе образуется n-2 кластера, при этом в двух из кластерах может оказаться по два наблюдения, а во всех остальных по одному, или в одном кластере 3 наблюдения, а во всех остальных по одному. Таким образом на каждом шаге кластеры или наблюдения комбинируются таким образом, чтобы свести к минимуму ошибки суммы квадратов и максимизировать значение r – квадрат. Реализация алгоритма завершается, когда образуется один большой кластер, куда входят все наблюдения [55].
Данный метод имеет высокую степень эффективности при обработке массива данных для поиска траекторий и отклонений.
