- •Содержание
- •Глава 1. Метод формирования гиперспектральных данных в микроскопии в видимом и ик диапазонах спектра 8
- •Глава 2. Обработка гиперспектральных данных с использованием алгоритмов обучения без учителя 14
- •Глава 3. Экспериментальная апробация выбранного метода 25
- •Введение
- •Глава 1. Метод формирования гиперспектральных данных в микроскопии в видимом и ик диапазонах спектра
- •1. 1. Структурная схема микроскопа-гиперспектрофотометра
- •1. 2. Метод формирования гиперспектральных данных
- •Глава 2. Обработка гиперспектральных данных с использованием алгоритмов обучения без учителя
- •2. 1. Метод k внутригрупповых средних с использованием метода минимальной длины описания
- •2. 2. Выбора признаков для построения обучающей выборки на основе анализа независимых компонент
- •Глава 3. Экспериментальная апробация выбранного метода
- •Как видно из таблицы алгоритм сокращения размерности сокращает время выполнения сегментации биологических препаратов разработанной программой.
- •Предложенный алгоритм позволяет проводить сегментацию гиперспектральных данных в полностью автоматическом режиме.
2. 2. Выбора признаков для построения обучающей выборки на основе анализа независимых компонент
Гиперспектральные изображения часто обладают избыточной информацией. Кластеризация таких изображений без предварительной обработки может занимать достаточно много времени. На Рис. 5 – 7 показаны примеры исходных гиперспектральных изображений и спектров пропускания клеток, оболочек и межклеточного матрикса. Из Рис. 5 – 7 видно, что спектры пропускания различных объектов на изображении мало отличаются друг от друга и имеют участки, когда коэффициенты пропускания почти совпадают. Описанные проблемы можно решить путем предварительного выбора признаков.
(а) (б)
Рис.5. Изображение клетки крови на длине волны 620нм (а), спектры пропускания клетки крови (зеленая линия), межклеточного матрикса (синяя линия) и оболочки (красная линия) (б)
(а) (б)
Рис.6. Изображение сегментоядерной клетки крови на длине волны 620нм (а), спектры пропускания сегментоядерной клетки крови (зеленая линия), межклеточного матрикса (синяя линия) и оболочки (красная линия) (б)
(а) (б)
Рис.7. Изображение ткани на длине волны 620нм (а), спектры пропускания ткани (зеленая линия), межклеточного матрикса (синяя линия) и оболочки (красная линия) (б)
В задаче выбора признаков известно исходное пространство Χ, которое соответствует доступной информации об объекте. Новые признаки могут быть получены только на основе уже имеющейся об объекте информации.
Задача выбора признаков заключается в поиске таких признаков, значения которых мало меняются для объектов одного класса, но в тоже время сильно меняются для объектов разных классов. Часто оказывается, что для надежного распознавания достаточно лишь небольшого числа таких признаков. Из этого следует что, выбор признаков может также приводить и к снижению размерности признакового пространства.
Одним из самых известных и широко применяемых методов сокращения размерностей является анализ независимых компонент. Изначально анализ независимых компонент был разработан для решения задачи разделения сигналов, которую часто называют проблемой коктейльной вечеринки. Данную задачу можно сформулировать следующим образом: пусть имеются несколько источников сигналов, которые генерируют сигнал одновременно, также имеются несколько приёмников. Принимаемые сигналы в простейшем случае можно представить в виде линейной комбинации сигналов, генерируемых источниками:
(8)
где
– сигнал на приёмнике
,
– сигнал от источника
,
– некоторые параметры, зависящие от
расстояния между источником и приёмником,
– независимая переменная,
– количество приёмников,
– количество источников. В векторно-матричной
форме выражение (1) примет вид, индексы
и независимая переменная в дальнейшем
будут опущены для краткости записи:
,
(9)
где
– вектор значений сигнала на приёмнике,
– вектор значений сигнала от источника,
– матрица коэффициентов, поиск которой
является задачей анализа независимых
компонент.
Выражение
(9) называется моделью линейного анализа
независимых компонент. Применительно
к задаче сокращения размерности данных
обучающей выборки можно сказать, что
решается задача поиска матрицы
проективного преобразования
из
пространства большей размерности в
пространство меньшей размерности. Поиск
матрицы коэффициентов выполняется при
условии статистической независимости
сигналов от источников.
Статистическую
независимость двух случайных величин
и
можно определить через их плотности
распределения вероятностей:
,
(10)
,
(11)
где
и
– маргинальные плотности вероятностей
и
,
а
– их совместная плотность вероятностей.
Это определение можно использовать для
вывода более значимого свойства
статистической независимости:
,
(12)
где
и
– некоторые функции.
Более слабой формой независимости является некоррелированность. Две случайные величины некоррелированы, если их ковариация равна нулю:
.
(13)
Для
примера рассмотрим случайную величину
,
которая с равной вероятностью
принимает следующие значения
,
,
,
.
Можно показать, что
и
некоррелированы, но при этом не
удовлетворяют условию статистической
независимости:
.
(14)
Кроме статистической независимости анализ главных компонент также накладывает ограничения на распределение исходных данных. Компоненты в модели не должны быть распределены по Гауссовскому закону, иначе корректное разделение исходных данных невозможно. На Рис. 1 представлено совместное распределение плотности вероятностей по Гауссовскому закону. Из Рис. 1 видно, что распределение абсолютно симметрично и не содержит информацию о направлении столбцов матрицы преобразования . Более того, распределение любого ортогонального преобразования случайной величины , распределённой по Гауссовскому закону, будет иметь то же самое распределение, как и в том случае, если бы и были независимы [9].
Самым эффективным алгоритмом анализа независимых компонент считается итерационный алгоритм FastICA, который максимизирует негауссовость, как меру статистической независимости [9,10].
Перед применением алгоритма обычно происходит предобработка исходных данных в виде центровки данных:
.
После центровки добиваются некоррелированности входных данных:
,
где
– матрица собственных векторов,
– диагональная матрица собственных
чисел ковариационной матрицы исходных
векторов.
получается путём возведения в степень
каждого элемента матрицы
.
На вход алгоритму подаются:
Матрица
,
которая содержит
векторов-столбцов размерностью
;
– размерность
результирующих векторов;
– число
определяющее погрешность определения
матрицы
.
Результат работы алгоритма:
– матрица преобразования из пространства большей размерности в пространство меньшей размерности.
Матрица
,
содержащая данные после сокращения
размерности.
После предобработки применяется сам алгоритм FastICA, который можно описать следующим образом:
Для
каждого
:
Присвоение
случайного вектора размерностью
.
.
Здесь
.
– единичный
вектор размерностью
.
.
.Если
,
то вернуться к шагу 2. Здесь
– вектор на предыдущей итерации,
– задаваемое значение, которое имеет
смысл максимальной погрешности
определения вектора
.Результат – матрица
,
матрица
Выводы по главе 2
1. Задачу сегментации гиперспектральных изображений можно свести к задаче кластеризации, обучающая выборка при этом будет содержать набор спектров пропускания гиперспектрального изображения.
2. Принцип минимальной длины описания позволяет избавиться от ручной настройки количества кластеров.
3. Гиперспектральные данные содержат избыточное количество информации, обработка которой может занимать продолжительное время. Для решения этой проблемы предлагается использовать алгоритм сокращения размерностей на основе анализа независимых компонент.
4. Предложенный алгоритм позволяет проводить сегментацию гиперспектральных данных в полностью автоматическом режиме.
