Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Общий конспект по Технологии анализа и обработ...docx
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
2.66 Mб
Скачать

Ftp Сервер

Доступ к данным предоставляется при помощи встроенного FTP-сервера Mina. Данный сервер предоставляет интерфейсы для тесной интеграции с приложением на платформе Java, и может быть сконфигурирован при помощи Spring IoC. Также он запускается вместе с ИС и получает информацию о правах доступа из базы данных, что позволяет упростить управление пользователями и правами, а также сократить избыточность данных.

Установка CouchDB

Процесс установки CouchDB зависит от вашей операционной системы. Если вы работаете с Windows® то вам понадобится Cygwin, компилятор Microsoft C и ряд других библиотек. В случае Mac необходимо использовать Macports. Если же у вас установлена одна из систем семейства Linux®, например, Ubuntu, то инсталляция CouchDB упрощается до предела.

Достоинства / Недостатки

CouchDB представляет интерес во многом потому, что с ней удивительно легко начать работать. Реляционные СУБД также просты в использовании, однако у CouchDB есть дополнительное преимущество: вы можете с легкостью задействовать предоставляемые ею API при помощи, например, Web-браузера. Более того, эти API следуют принципам REST, а следовательно, вы можете с ними работать через такие удобные библиотеки, как HTTPBuilder и RESTClient. Кроме того, вы не обязаны использовать именно HTTPBuilder, поскольку существует множество Java-библиотек, также облегчающих работу с CouchDB. Одной из наиболее многообещающих библиотек является jcouchdb , которая полностью скрывает детали разбора JSON и обращения к ресурсам REST, позволяя обращаться к документам и представлениям в Java.

Единственное, чего действительно не хватает в базе данных, основанной на JSON, так это внешних ключей - указателей от одного документа, или записи, к другому. В CouchDB нет встроенной функции связывания документов, хотя и существуют возможности использования данных одного документа для просмотра данных другого документа.

Заключение

CouchDB - нереляционная база данных, которая становится все более популярной. Она предлагает гибкость в хранении и выборке данных.

Дополнение

За последние месяцы вышли в свет две хорошие книги. Книга Beginning CouchDB автора Joe Lennon, опубликованная издательством Apress рассчитана на новичков, но содержит основательное введение в CouchDB, Futon и порядок использования системы. Книга CouchDB: The Definitive Guide авторов J. Chris Anderson, Jan Lehnardt и Noah Slater, опубликованная издательством O'Reilly, является более продвинутой и содержательной, но ее не стоит советовать начинающим пользователям нереляционных баз данных.

  1. Методы интеллектуального анализа: иерархические модели кластерного анализа

Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов.

В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление

исследуемых объектов, позволяет анализировать показатели различных типов данных

(интервальным данным, частотам, бинарным данным). При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах.

Кластерный анализ позволяет сокращать размерность данных, делать ее наглядной. Кластерный анализ может применяться к совокупностям временных рядов, здесь могут выделяться периоды схожести некоторых показателей и определяться группы временных рядов со схожей динамикой.

Кластерный анализ параллельно развивался в нескольких направлениях, таких как

биология, психология, др., поэтому у большинства методов существует по два и более

названий. Это существенно затрудняет работу при использовании кластерного анализа.

Задачи кластерного анализа можно объединить в следующие группы:

1. Разработка типологии или классификации.

2. Исследование полезных концептуальных схем группирования объектов.

3. Представление гипотез на основе исследования данных.

4. Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Как правило, при практическом использовании кластерного анализа одновременно

решается несколько из указанных задач.

Следует отметить, что методы кластерного анализа являются контекстно-зависимыми. В данном направлении интеллектуального анализа данных выявлено две проблемы:

1) потеря значимых закономерностей при использовании одного инструмента анализа;

2) вычислительная сложность и большие временные затраты при применении инструментов на исходных данных.

Методы кластерного анализа можно разделить на две группы:

  • иерархические;

  • неиерархические.

Каждая из групп включает множество подходов и алгоритмов.

Используя различные методы кластерного анализа, аналитик может получить различные решения для одних и тех же данных. Это считается нормальным явлением.

Иерархические методы кластерного анализа

Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие. Иерархические методы в соответствии с классификацией делятся на агломеративные и дивизимные методы.

  • Иерархические агломеративные методы (Agglomerative Nesting, AGNES)

Эта группа методов характеризуется последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров.

В начале работы алгоритма все объекты являются отдельными кластерами. На первом шаге наиболее похожие объекты объединяются в кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер.

  • Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA)

Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп. Дивизимная группа методов характеризуется последовательным разделением исходных элементов и соответствующим увеличением количества кластеров.

Принцип работы описанных выше групп методов в виде дендрограммы показан на рисунке.

Программная реализация алгоритмов кластерного анализа широко представлена в различных инструментах Data Mining, которые позволяют решать задачи достаточно большой размерности. Например, агломеративные методы реализованы в пакете SPSS, дивизимные методы - в пакете Statgraf.

Иерархические методы кластеризации различаются правилами построения кластеров. В качестве правил выступают критерии, которые используются при решении вопроса о "схожести" объектов при их объединении в группу (агломеративные методы) либо разделения на группы (дивизимные методы).

Иерархические методы кластерного анализа используются при небольших объемах наборов данных.

Преимуществом иерархических методов кластеризации является их наглядность.

Иерархические алгоритмы связаны с построением дендрограмм (от греческого dendron - "дерево"), которые являются результатом иерархического кластерного анализа. Дендрограмма описывает близость отдельных точек и кластеров друг к другу, представляет в графическом виде последовательность объединения (разделения) кластеров.

Дендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров.

Дендрограмму также называют древовидной схемой, деревом объединения кластеров, деревом иерархической структуры.

Дендрограмма представляет собой вложенную группировку объектов, которая изменяется на различных уровнях иерархии.

Существует много способов построения дендограмм. В дендограмме объекты могут располагаться вертикально или горизонтально. Пример вертикальной дендрограммы приведен на рисунке.

Числа 11, 10, 3 и т.д. соответствуют номерам объектов или наблюдений исходной выборки. Мы видим, что на первом шаге каждое наблюдение представляет один кластер (вертикальная линия), на втором шаге наблюдаем объединение таких наблюдений: 11 и 10; 3, 4 и 5; 8 и 9; 2 и 6. На втором шаге продолжается объединение в кластеры: наблюдения 11, 10, 3, 4, 5 и 7, 8, 9. Данный процесс продолжается до тех пор, пока все наблюдения не объединятся в один кластер.

Иерархический кластерный анализ в SPSS

Рассмотрим процедуру иерархического кластерного анализа в пакете SPSS. Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют переменные, а роль переменных - столбцы.

В этом методе реализуется иерархический агломеративный алгоритм, смысл которого заключается в следующем. Перед началом кластеризации все объекты считаются отдельными кластерами, в ходе алгоритма они объединяются. Вначале выбирается пара ближайших кластеров, которые объединяются в один кластер. В результате количество кластеров становится равным N-1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким образом, результат работы алгоритма агрегирования зависит от способов вычисления расстояния между объектами и определения близости между кластерами.

Для определения расстояния между парой кластеров могут быть сформулированы различные подходы. С учетом этого в SPSS предусмотрены следующие методы:

  • Среднее расстояние между кластерами (Between-groups linkage), устанавливается по умолчанию.

  • Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров (Within-groups linkage).

  • Расстояние между ближайшими соседями - ближайшими объектами кластеров (Nearest neighbor).

  • Расстояние между самыми далекими соседями (Furthest neighbor).

  • Расстояние между центрами кластеров (Centroid clustering) или центроидный метод. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров, без учета их объема.

  • Метод медиан - тот же центроидный метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering).

  • Метод Варда.

Пример иерархического кластерного анализа

Порядок агломерации (протокол объединения кластеров) представленных ранее данных приведен в таблице 13.2. В протоколе указаны такие позиции:

Stage - стадии объединения (шаг);

Cluster Combined - объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров);

Coefficients - коэффициенты.

Таблица Порядок агломерации

Cluster Combined Coefficients

Cluster 1 Cluster 2

1 9 10 ,000

2 2 14 1,461E-02

3 3 9 1,461E-02

4 5 8 1,461E-02

5 6 7 1,461E-02

6 3 13 3,490E-02

7 2 11 3,651E-02

8 4 5 4,144E-02

9 2 6 5,118E-02

10 4 12 ,105

11 1 3 ,120

12 1 4 1,217

13 1 2 7,516

Так, в колонке Cluster Combined можно увидеть порядок объединения в кластеры: на первом шаге были объединены наблюдения 9 и 10, они образовывают кластер под номером 9, кластер 10 в обзорной таблице больше не появляется. На следующем шаге происходит объединение кластеров 2 и 14, далее 3 и 9, и т.д.

В колонке Coefficients приведено количество кластеров, которое следовало бы считать оптимальным; под значением этого показателя подразумевается расстояние между двумя кластерами, определенное на основании выбранной меры расстояния. В нашем случае это квадрат евклидова расстояния, определенный с использованием стандартизированных значений. Процедура стандартизации используется для исключения вероятности того, что классификацию будут определять переменные, имеющие наибольший разброс значений. В SPSS применяются следующие виды стандартизации:

  • Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.

  • Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от -1 до 1.

  • Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.

  • Максимум 1. Значения переменных делятся на их максимум.

  • Среднее 1. Значения переменных делятся на их среднее.

  • Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.

Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.

SPSS Statistics (аббревиатура англ. «Statistical Package for the Social Sciences» — «статистический пакет для социальных наук») — компьютерная программа для статистической обработки данных, один из лидеров рынка в области коммерческих статистических продуктов, предназначенных для проведения прикладных исследований в социальных науках.