
- •Задачи интеллектуального анализа: кластеризация
- •Распределенные вычисления на примере cloud-based по на примере prezi.Com
- •Условия использования сервиса Prezi.Com
- •Технология Redis
- •Программное обеспечение интеллектуального анализа: Система statistica Data Miner
- •Программное обеспечение интеллектуального анализа: Oracle Data Mining
- •Понятие «Data mining», Data mining и базы данных.
- •Архитектура odm
- •Функциональные возможности odm.
- •Технология BigTable (Google)
- •MapReduce: модель и реализации.
- •2. Реализация в распределенной среде.
- •3. Расширенные средства.
- •«Методы Data Mining: ассоциативные правила»
- •1. Определение. Основные понятия
- •2. Типы ассоциативных правил
- •3. Алгоритм apriori
- •4. Применение
- •«Методология Data Mining: crisp-dm»
- •Понимание бизнеса (Business Understanding)
- •Понимание данных (Data Understanding)
- •Подготовка данных (Data Preparation)
- •Моделирование (Modeling)
- •Оценка (Evaluation)
- •Развертывание (Deployment)
- •Большие данные
- •История
- •Методики анализа больших данных
- •Почему данные стали большими
- •Аналитический инструментарий
- •Как справиться с большими данными?
- •Кому выгодны большие данные
- •Проблема больших данных в различных отраслях
- •Информационной экономике нужны миллионы ит-сотрудников
- •10, Спрос на администраторов Big data
- •Стадии интеллектуального анализа: задача консолидации
- •Основные этапы консолидации данных
- •Источники данных
- •Обобщенная схема процесса консолидации
- •Вероятностный вывод
- •Методы интеллектуального анализа : эволюционное программирование и генетические алгоритмы
- •Применение генетических алгоритмов
- •Примеры программного обеспечения
- •Методы интеллектуального анализа: деревья решений
- •Документно-ориентированная система управления базами данных CouchDb
- •Ftp Сервер
- •Методы интеллектуального анализа: иерархические модели кластерного анализа
- •Документно-ориентированная система управления базами данных MongoDb
- •2.Понятие о документно-ориентированной системе управления базами данных MongoDb
- •3. Возможности
- •4.История разработки
- •5. Использование MongoDb
- •6.Оценка производительности
- •7.Безопасность
- •8. Соответствие между sql и MongoDb
- •Простые запросы на выборку
- •Запросы на выборку с регулярными выражениями
- •Запросы на выборку с группировками
- •Запросы на выборку с объединением таблиц
- •Информация о запросе
- •Создание, изменение и удаление документов
- •Бизнес-анализ
- •Часть 1. Понятие «бизнес-анализ»
- •Часть 2. Разделы науки бизнес-анализа
- •Часть 3. Техники бизнес-анализа
- •Часть 4.Система бизнес-анализа и поддержки принятия решений
- •Часть 5. Методы бизнес-анализа
- •6. Роли бизнес-аналитиков
- •7. Цели бизнес-аналитиков
- •8.Выдержки из должностной инструкции бизнес-аналитика
- •9.Будущее бизнес-аналитики
- •Иску́сственные нейро́нные се́ти
- •Систе́ма подде́ржки приня́тия реше́ний
- •1. Сппр- хранилище данных
- •2. Аналитические системы
- •Субд Cassandra
- •Хранилища данных и средства их построения Data Warehousing
- •Программное обеспечение интеллектуального анализа: statistica
- •Бурение и расслоение
- •Классификатор
- •Разведчик многомерных моделей
- •Нейросетевой разведчик
- •Рабочее пространство statistica Data Miner состоит из четырех основных частей:
- •Автоматизация любых процедур с помощью statistica Visual Basic;
6.Оценка производительности
Первоначально целью исследовния NoSQL систем был выбор быстрой на вставку и выборку небольших объемов данных: альтернативы MySQL.
Для взаимодействия с обеими базами использовался Perl, для MongoDB одноименный модуль, а для MySQL модуль DBI. Словарь содержит более 90 000 слов. Структура таблицы/коллекции была проста: кроме первичного индекса я записывал туда само слово и его длину. Процесс заполнения базы данными и стал первым испытанием.
добавление
записей/документов в базы
Как видно из графика, время выполнения вставки увеличивается линейно, без каких-либо скачков, а MongoDB опережает MySQL на 40%! Это преимущество по производительности можно легко объяснить отсутствием настоящего ACID, то есть при записи не проверяется и не возвращается её результат. Ради интереса было включено безопасное добавление записей в MongoDB, это самая верхняя линия, в итоге Mongo стала в 2.5 раза медленнее MySQL. Вторым этапом тестирования была выборка, сначала использовался тот же алгоритм, что и в поиске опечаток, делалась выборка в разных диапазонах длин слов. Очевидно, что слов средней длины в словаре больше, и на графиках заметно, как сильно там проседает MongoDB. А по краям, там где количество слов небольшое, почти сравнивается с MySQL.
полная
выборка данных по диапазонам длин слов
с дополнительными индексами и без
(чем
меньше тем лучше)
обработка запроса
и выборка только первого результата по
диапазону длины слова
(чем меньше
тем лучше)
Следующим этапом сравнения производительности было обновление. Вот сравнительные результаты обновления каждой 10ой/100ой/1000ой строки:
обновление
каждой 10ой/100ой/1000ой записи
(чем меньше
тем лучше)
Тут следует рассказать о
том, как работает обновление в MongoDB и
какие хитрости используются для
достижения такого эффекта. Если
обновляемый объект не вырастает в
размере, то он просто обновляется в том
же месте, где находится, и базе не
приходится выделять место и создавать
новую копию объекта, что повышает
производительность некотрых операций
вроде увеличения счетчика. Второй
хитростью является так называемая
ленивая запись, когда данные из памяти
переписываются на диск не сразу после
запроса, а через несколько секунд, и
если за это время приходит несколько
обновлений, то записывается только
последнее.
Заключительным этапом
тестирования стало удаление записей.
Ниже приведены результаты удаления
каждой 10ой/100ой/1000ой строки. И опять
MongoDB оказался вне конкуренции.
удаление
каждой 10ой/100ой/1000ой записи
(чем меньше
тем лучше)
В результате MongoDB — это
высокопроизводительная система, которая
отлично подходит для проектов с высокой
динамикой обновления базы. И в идеале
может заменить собой целый стэк
технологий ORM/mysql/memcached.
Но тем не менее является нишевым продуктом
и не подходит для случаев в которых
надежность данных является главным
приоритетом.
7.Безопасность
Производитель рекомендует использовать сервера БД в доверенной среде и не полагаться на встроенные в сервер средства безопасности.
Реализована одноступенчатая аутентификация по имени пользователя и паролю. Три группы пользователей:
Администраторы
Пользователи с правами на чтение и запись
Пользователи с правами на чтение
Администраторы - на уровне сервера, пользователи - на уровне каждой отдельной БД.
Аутентификация поддерживается в репликационных множествах с версии 1.7.5.
Аутентификация не поддерживается при использовании sharding.