
- •Магистерская диссертация
- •230400.68 Информационные системы и технологии
- •230400.68.01 Информационно-управляющие системы
- •Глава 1. Информационно-аналитические технологии анализа данных……………………………………………………………………………...7 1.1 Роль и место информационно-аналитических систем…………7
- •Глава 2. Символьный анализ данных…………………………………..19
- •Глава 3. Применение символьного анализа в информационно аналитических системах......................................................................................57
- •Реферат
- •Введение
- •Глава 1. Информационно-аналитические технологии анализа данных
- •1.1 Роль и место информационно-аналитических систем
- •1.2 Технологии извлечения данных
- •Глава 2. Символьный анализ данных
- •Типы символьных данных
- •2.2 Гистограммы как символическое представление данных
- •2.2.1 Распределение данных
- •2.2.2 Обоснование гистограмм
- •2.2.3 Аппроксимация значений внутри каждого бакета
- •2.2.4 Анализ бинарных данных
- •2.2.5 Построение гистограмм
- •2.2.6 Гистограммы символьных последовательностей
- •2.4 Визуально интерактивные методы анализа данных
- •2.4.1 Теория Доу
- •2.4.2 Волновая теория Эллиотта
- •2.4.3 Метод японских свечей.
- •Глава 3. Применение символьного анализа в информационно аналитических системах
- •3.1.1 Одна зависимая переменная.
- •3.1.2 Многозначные переменная
- •3.1.3 Интервальные переменные
- •3.1.4 Гистограммные переменные
- •3.2 Кластерный анализ
- •3.2.1 Многозначные переменные
- •3.2.2 Интервальные переменные
- •3.3 Кластерный анализ в распознавании изображений
- •Заключение
- •Список использованных источников
- •Приложение а Исходный код программы распознавания изображений
2.2 Гистограммы как символическое представление данных
Термин гистограмма был введен знаменитым статистиком Карлом Пирсоном для обозначения "общей формы графического представления". В цитате Оксфордского словаря английского языка из "Philosophical Transactions of the Royal Society of London" упоминается, что cлово 'гистограмма' было введено автором лекций по статистике как термин для обозначения общей формы графического представления, т.е. путем маркировки столбцов как областей частотности в соответствии с масштабом их базиса". Стинглер отождествляет упомянутые лекции с изданными в 1892 г. лекциями по статистической геометрии.
В последние два десятилетия гистограммы использовались в нескольких областях информатики. [4] Кроме области баз данных, гистограммы играют важную роль, главным образом, в областях обработки изображений и машинного зрения. При заданном изображении (или видео) и визуальном пиксельном параметре, гистограмма фиксирует для каждого возможного значения параметра ("класса" по Вебстеру) число пикселей, имеющихся у этого значения ("частота" по Вебстеру). Такая гистограмма является сводной характеристикой изображения и может быть очень полезна при решении нескольких задач: распознавании похожих изображений, сжатии изображений и т.д.[20]
2.2.1 Распределение данных
Рассмотрим
отношение
с
числовыми атрибутами
.
Множество значений
атрибута
- это множество значений
,
присутствующих в
.
Пусть
(2.21)
где
при
.
Протяженность (spread)
для
определяется как
(2.22)
для
.
(Мы полагаем
).
Частота
для
- это число кортежей в
с
.
Площадь (area)
для
определяется как
.
(2.23)
Распределение данных для - это множество пар
}.
(2.24)
Соединенная
частота (joint frequency)
комбинации значений
(2.25)
-
это число кортежей в
,
в которых для всех
атрибут
содержит значение
.
Соединенное распределение данных
для
- это полное множество пар (комбинация
значение, соединенная частота).
Далее для одномерного случая мы будем использовать введенные обозначения без нижнего индекса .
2.2.2 Обоснование гистограмм
Распределения данных очень полезны в системах баз данных, но обычно они слишком велики, чтобы можно было хранить их точно, так что в игру вступают гистограммы как механизм аппроксимации. Методы гистограмм в базах данных наиболее важны для оценок селективности и формировании приблизительных ответов на запросы в оптимизаторе запросов (для первого случая) и при организации обратной связи с пользователями до выполнения запросов (для обоих случаев). Наше дальнейшее обсуждение сосредотачивается именно на этих двух случаях, и в особенности на оценки селективности диапазонных запросов (range-query). Однако не следует забывать, что показана полезность гистограмм и в контексте нескольких других проблем баз данных, например, при балансировке нагрузки при параллельном выполнении запросов, выполнении темпоральных соединений на основе разделов и т.д.
Гистограмма
на атрибуте
конструируется путем разделения
распределения данных для
на
взаимно непересекающихся подмножеств,
называемых бакетами (bucket) и аппроксимирующих
частоты и значения в каждом бакете в
некоторой общей манере. Это определение
оставляет несколько степеней свободы
при разработке конкретных классов
гистограмм, поскольку имеется несколько
вариантов выбора для каждого из следующих
(большей частью, ортогональных) аспектов
гистограмм:
Правило разделения: Здесь можно выделить следующие характеристики:
- Класс разделения: Эта характеристика показывает, имеются ли какие-либо ограничения на бакеты. Огромной важностью обладают сериальный класс разделения, который требует, чтобы бакеты были не перекрывающимися в соответствии с некоторым параметром, и его подкласс - класс разделения со смещением к краям (end-biased), для которого требуется наличие не более одного одноэлементного бакета.
- Параметр разделения: Это параметр, значение которого для каждого элемента распределения данных порождается из соответствующего значения атрибута и частот. Для всех сериальных гистограмм требуется, чтобы значения параметра разделения в каждом бакете образовывали непрерывный диапазон. Примерами параметров разделения, обсуждаемыми в литературе, являются значение атрибута (V), частота (F) и площадь (A).
- Параметр источника: В этом параметре фиксируется свойство распределения данных, являющееся наиболее важным для проблемы оценки и используемое совместно со следующей характеристикой при определении уникального разделения. Наиболее часто используемыми параметрами источника являются протяженность (S), частота (F) и площадь (A).
- Ограничение разделения: Это математическое ограничение на параметр источника, которое уникально идентифицирует гистограмму в ее классе разделений. Предлагалось несколько ограничений разделения, например, equi-sum, v-optimal, maxdiff и compressed, которые мы определяем ниже так, как они вводились авторами. Во многих наиболее удачных подходах авторы старались избежать группирования в бакет чрезмерно различные значения параметра источника.
Алгоритм конструирования: Это алгоритм, который по заданному правилу разделения конструирует гистограммы, соответствующие этому правилу. Часто для одного класса гистограмм существует несколько алгоритмов конструирования с разной эффективностью.
Аппроксимация значений: В этом аспекте фиксируется то, как внутри бакета аппроксимируются значения атрибута, что не зависит от правила разделения гистограммы. Наиболее распространенными альтернативами являются предположение о непрерывности значений (continuous value assumption) и предположение о равномерности протяженностей (uniform spread assumption); в обоих случаях предполагается, что значения равномерно размещаются в диапазоне, покрываемом бакетом, но в первом случае игнорируется число этих значений, а во втором это число регистрируется внутри бакета.
Аппроксимация частоты: В этом аспекте фиксируется то, как внутри бакета аппроксимируются частоты. Доминирующий подход опирается на предположение о равномерности частот (uniform distribution assumption), в котором предполагается, что частоты всех элементов в бакете одни и те же и равны среднему значению реальных частот.
Гарантии ошибок: Имеются верхние границы ошибок оценок, производимых гистограммой, обеспечиваемые на основе информации, которую поддерживает гистограмма.
Многомерная гистограмма на множестве атрибутов конструируется путем разделения соединенного распределения данных этих атрибутов. У таких гистограмм имеются точно такие же характеристики, как и у одномерных гистограмм, за исключением того, что требуется более сложное разделения, и оно не всегда так отчетливо раскладывается в четыре других характеристики, как раньше, например, в этом случае нет реального параметра разделения, поскольку в многомерном пространстве не может быть упорядоченности.