Субд Cassandra

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Общий конспект по Технологии анализа и обработ...docx

Скачиваний:

Добавлен:

01.03.2025

Размер:

2.66 Mб

Скачать

☆

<<< < Предыдущая 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 3839 / 4439 40 41 42 43 44 > Следующая >>>

Субд Cassandra

Сassandra — децентрализованная, отказоустойчивая и надёжная база данных “ключ-значение”. Хранилище само позаботится о проблемах наличия единой точки отказа (single point of failure), отказа серверов и о распределении данных между узлами кластера (cluster node). При чем, как в случае размещения серверов в одном центре обработки данных(data center), так и в конфигурации со многими центрами обработки данных, разделенных расстояниями и, соответственно, сетевыми задержками. Под надёжностью понимается итоговая согласованность(eventual consistency) данных с возможностью установки уровня согласования данных (tune consistency) каждого запроса.

В терминологии кассандры приложение работает с пространством ключей (keyspace), что соответствует понятию схемы базы данных (database schema) в реляционной модели. В этом пространстве ключей могут находиться несколько колоночных семейств (column family), что соответствует понятию реляционной таблицы. В свою очередь, колоночные семейства содержат колонки (column), которые объединяются при помощи ключа (row key) в записи (row). Колонка состоит из трех частей: имени (column name), метки времени (timestamp) и значения (value). Колонки в пределах записи упорядочены. В отличие от реляционной БД, никаких ограничений на то, чтобы записи (а в терминах БД это строки) содержали колонки с такими же именами как и в других записях — нет. Колоночные семейства могут быть нескольких видов, но в этой статье мы будем опускать эту детализацию. Также в последних версиях кассандры появилась возможность выполнять запросы определения и изменения данных (DDL, DML) при помощи языкаCQL, а также создавать вторичные индексы (secondary indices).

Конкретное значение, хранимое в кассандре идентифицируется:

пространством ключей — это привязка к приложению (предметной области). Позволяет на одном кластере размещать данные разных приложений;

колоночным семейством — это привязка к запросу;

ключом — это привязка к узлу кластера. От ключа зависит на какие узлы попадут сохранённые колонки;

именем колонки — это привязка к атрибуту в записи. Позволяет в одной записи хранить несколько значений.

Преимущества СУБД Cassandra 0.7:

поддержка так называемых вторичных индексов, которые имеют более оптимальный механизм взаимодействия клиента и сервера в момент обращения к данным;

возможность создания до 2 млрд столбцов в ряду;

автоматическое изменение данных (на уровне API) без перезапуска всего кластера;

максимальный кластер Cassandra включает 400 машин.

Данную СУБД уже активно используют на своих мега-произодительных супер-серверах такие всемирно-известные компании, как Cisco, Cloudkick, Digg, Facebook, Rackspace, Reddit и Twitter.

Применение на данном этапе:

Apache Cassandra является неотъемлемой компонентой проектирования и создания облачных систем, а также других приложений, обрабатывающих большие наборы данных. Дальнейшая перспектива просматривается в применении СУБД для высокопроизводительных web-сайтов, в частности соц. сетей с большой базой пользователей. Apache Cassandra, как и следовало ожидать, имеет лицензию Apache Software Licencse 2.0.

Организация Apache Software Foundation представила релиз распределённой БД Apache Cassandra 1.1.0, относящейся к классу noSQL-систем и рассчитанной на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша. Изначально проект был разработан в недрах Facebook и в 2009 году передан под покровительство фонда Apache. Промышленные решения на базе Cassandra развернуты для обеспечения сервисов таких компаний, как Adobe, Cisco, IBM, Rackspace и Twitter. Наиболее крупный кластер серверов, обслуживающих единую БД Cassandra, размер данных в которой превышает 300 Тб, насчитывает более 400 машин.

БД Cassandra написана на языке Java и объединяет в себе полностью распределённую hash-систему Dynamo, обеспечивающую практически линейную масштабируемость при увеличении объема данных. Cassandra использует модель хранения данных на базе семейства столбцов (ColumnFamily), отличающуюся от систем подобных memcachedb, которые хранят данные только в связке ключ/значение, возможностью организовать хранение хэшей с несколькими уровнями вложенности. Cassandra относится к категории хранилищ повышенно устойчивых к сбоям: помещаемые в БД данные автоматически реплицируются на несколько узлов распределённой сети или даже равномерно распределяются по нескольким дата-центрам. При сбое узла, его функции на лету подхватываются другими узлами. Добавление новых узлов в кластер и обновление версии Cassandra производится на лету, без дополнительного ручного вмешательства и переконфигурирования других узлов.

Для упрощения взаимодействия с БД поддерживается язык формирования структурированных запросов CQL (Cassandra Query Language), на первый взгляд напоминающий SQL, но существенно урезанный по функциональности. Например, можно выполнять только простейшие запросы SELECT с выборкой по определённому условию, но без поддержки сортировки и группировки. Добавление и обновление данных производится через единое выражение UPDATE, операция INSERT отсутствует (если записи нет, при выполнении UPDATE она создаётся). Из возможностей можно отметить поддержку пространств имён и семейств столбцов, создание индексов через выражение "CREATE INDEX". Драйверы с поддержкой CQL подготовлены для языков Python, Java (JDBC/DBAPI2) и JavaScript (Node.js).

В наибольшей степени преимущества Cassandra проявятся при использовании в основе крупных сайтов, характеризующихся высокими темпами роста посещаемости».

Cassandra используется в ряде популярных веб-сервисов, таких как Digg, Twitter и Facebook (компания Facebook является одновременно разработчиком технологии, положенной в основу СУБД). Как утверждают авторы проекта, самый крупный на сегодня кластер с Cassandra состоит более чем из 400 серверов.

В предыдущих версиях СУБД ограничения на количество столбцов в строке не было, однако предельный размер каждой строки составлял около 2 Гбайт. В Cassandra 0.7 это ограничение устранено.

Благодаря поддержке больших строк системы пользователи Cassandra смогут «на лету» создавать практически неограниченное количество столбцов, утверждает Эллис.

Поскольку Cassandra не поддерживает обработку SQL-запросов, дополнительные столбцы необходимы для анализа данных внутри конкретной строки, отметил в блоге Максим Гринев, научный сотрудник Высшей технической школы Цюриха.

В числе других новых особенностей Cassandra 0.7 — поддержка вторичных индексов, благодаря которой обеспечивается простой способ опроса данных на локальных машинах, и возможность вносить изменения в схему базы данных без перезапуска всего кластера.

Cassandra относится к классу нереляционных СУБД. Такие системы обеспечивают возможность быстрого и простого сохранения очень больших объемов данных и, как правило, работают в кластеризованной среде.

Исходный вариант Cassandra был разработан программистами Facebook для используемого в социальной сети механизма поиска по входящим сообщениям. Ввиду потребности в управлении большими объемами данных в Facebook решили воспользоваться архитектурой Google Big Table, поскольку на ее основе можно было создать строчно-столбцовую СУБД, способную работать на множестве узлов.

Недостаток механизма Big Table состоял в том, что эта архитектура опирается на мастер-узел, объяснил Эллис в интервью Службе новостей IDG на конференции ApacheCon в ноябре прошлого года. Вся работа Big Table зависит от единственного узла, который координирует операции чтения и записи, выполняемые всеми остальными узлами. Если он дает сбой, вся система становится неработоспособной, указал Эллис.

Поэтому в основе Cassandra используется гибрид из Big Table и разработанной в Amazon архитектуры Dynamo. Благодаря последней удалось устранить уязвимое звено в виде головного узла, обеспечив при этом простоту масштабирования системы. Архитектура Dynamo не предполагает наличия головного узла. Любой узел может принимать данные для всей системы и отвечать на запросы. Данные при этом тиражируются между множеством хостов.

Cassandra — не единственная кластеризованная СУБД, созданная с использованием идей Big Table и Dynamo. Начинающая компания Cloudant на основе аналогичных технологий разработала кластеризованную версию СУБД с открытым кодом CouchDB — BigCouch. Совсем недавно компания объявила, что количество пользователей размещаемой версии BigCouch достигло 2,5 тыс.

<<< < Предыдущая 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 3839 / 4439 40 41 42 43 44 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025620.94 Кб0Общая характеристика курса.docx
#
04.05.20193.85 Mб14Общая характеристика предприятия.doc
#
24.09.201983.37 Кб4ОБЩЕСТВО КАК ОБЪЕКТ ПОЗНАНИЯ.docx
#
01.05.2025159.74 Кб0общие билеты.doc
#
01.03.2025159.74 Кб0общие билеты.doc
#
01.03.20252.66 Mб1Общий конспект по Технологии анализа и обработ...docx
#
01.03.20252.68 Mб0Общий конспект по Технологии анализа и обработ...docx
#
01.03.20253.78 Mб1Общий конспект по Технологии анализа и обработ...docx
#
01.03.20252.63 Mб0Общий конспект по Технологии анализа и обработ...docx
#
29.02.2016641.56 Кб48Общий курс транспорта.pdf
#
01.04.2025121.86 Кб0Общий тест по курсу OS - 11.doc