
- •Задачи интеллектуального анализа: кластеризация
- •Распределенные вычисления на примере cloud-based по на примере prezi.Com
- •Условия использования сервиса Prezi.Com
- •Технология Redis
- •Программное обеспечение интеллектуального анализа: Система statistica Data Miner
- •Программное обеспечение интеллектуального анализа: Oracle Data Mining
- •Понятие «Data mining», Data mining и базы данных.
- •Архитектура odm
- •Функциональные возможности odm.
- •Технология BigTable (Google)
- •MapReduce: модель и реализации.
- •2. Реализация в распределенной среде.
- •3. Расширенные средства.
- •«Методы Data Mining: ассоциативные правила»
- •1. Определение. Основные понятия
- •2. Типы ассоциативных правил
- •3. Алгоритм apriori
- •4. Применение
- •«Методология Data Mining: crisp-dm»
- •Понимание бизнеса (Business Understanding)
- •Понимание данных (Data Understanding)
- •Подготовка данных (Data Preparation)
- •Моделирование (Modeling)
- •Оценка (Evaluation)
- •Развертывание (Deployment)
- •Большие данные
- •История
- •Методики анализа больших данных
- •Почему данные стали большими
- •Аналитический инструментарий
- •Как справиться с большими данными?
- •Кому выгодны большие данные
- •Проблема больших данных в различных отраслях
- •Информационной экономике нужны миллионы ит-сотрудников
- •10, Спрос на администраторов Big data
- •Стадии интеллектуального анализа: задача консолидации
- •Основные этапы консолидации данных
- •Источники данных
- •Обобщенная схема процесса консолидации
- •Вероятностный вывод
- •Методы интеллектуального анализа : эволюционное программирование и генетические алгоритмы
- •Применение генетических алгоритмов
- •Примеры программного обеспечения
- •Методы интеллектуального анализа: деревья решений
- •Документно-ориентированная система управления базами данных CouchDb
- •Ftp Сервер
- •Методы интеллектуального анализа: иерархические модели кластерного анализа
- •Документно-ориентированная система управления базами данных MongoDb
- •2.Понятие о документно-ориентированной системе управления базами данных MongoDb
- •3. Возможности
- •4.История разработки
- •5. Использование MongoDb
- •6.Оценка производительности
- •7.Безопасность
- •8. Соответствие между sql и MongoDb
- •Простые запросы на выборку
- •Запросы на выборку с регулярными выражениями
- •Запросы на выборку с группировками
- •Запросы на выборку с объединением таблиц
- •Информация о запросе
- •Создание, изменение и удаление документов
- •Бизнес-анализ
- •Часть 1. Понятие «бизнес-анализ»
- •Часть 2. Разделы науки бизнес-анализа
- •Часть 3. Техники бизнес-анализа
- •Часть 4.Система бизнес-анализа и поддержки принятия решений
- •Часть 5. Методы бизнес-анализа
- •6. Роли бизнес-аналитиков
- •7. Цели бизнес-аналитиков
- •8.Выдержки из должностной инструкции бизнес-аналитика
- •9.Будущее бизнес-аналитики
- •Иску́сственные нейро́нные се́ти
- •Систе́ма подде́ржки приня́тия реше́ний
- •1. Сппр- хранилище данных
- •2. Аналитические системы
- •Субд Cassandra
- •Хранилища данных и средства их построения Data Warehousing
- •Программное обеспечение интеллектуального анализа: statistica
- •Бурение и расслоение
- •Классификатор
- •Разведчик многомерных моделей
- •Нейросетевой разведчик
- •Рабочее пространство statistica Data Miner состоит из четырех основных частей:
- •Автоматизация любых процедур с помощью statistica Visual Basic;
Аналитический инструментарий
Некоторые подходы или определенная их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать;
1010data;
Apache Chukwa;
Apache Hadoop;
Apache Hive;
Apache Pig!;
Jaspersoft;
LexisNexis Risk Solutions HPCC Systems;
MapReduce;
Revolution Analytics (на базе языка R для мат. статистики).
Особый интерес в этом списке представляет Apache Hadoop – ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций. Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. В настоящее время практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.
Как справиться с большими данными?
Невиданное прежде разнообразие данных, возникающих в результате огромного числа всевозможных транзакций и взаимодействий, предоставляет собой прекрасную фундаментальную базу для бизнеса по уточнению прогнозов, оценке перспектив развития продуктов и целых направлений, лучшего контроля затрат, оценки эффективности – список легко продолжать сколь угодно долго. С другой стороны, большие данные ставят непростые задачи перед любым ИТ-подразделением. Мало того, что они принципиально нового характера, при их решении важно учитывать накладываемые бюджетом ограничения на капитальные и текущие затраты.
ИТ-директор, который намерен извлечь пользу из больших структурированных и неструктурированных данных, должен руководствоваться следующими техническими соображениями:
Разделяй и властвуй.
Перемещение и интеграция данных необходимы, но оба подхода повышают капитальные и операционные расходы на инструменты извлечения информации, ее преобразования и загрузки (ETL). Поэтому не стоит пренебрегать стандартными реляционными средами, такими как Oracle, и аналитическими хранилищами данных, такими как Teradata.
Компрессия и дедупликация. (Дедупликация данных — это технология, при помощи которой обнаруживаются и исключаются избыточные данные в дисковом хранилище. Например, путем замены повторных копий данных ссылками на первую копию. Это позволяет сократить объёмы физических носителей для хранения тех же объёмов данных.)
Обе технологии существенно ушли вперед, например, многоуровневая компрессия позволяет сокращать объем `сырых` данных в десятки раз. Впрочем, всегда стоит помнить какая часть сжатых данных может потребовать восстановления, и уже отталкиваясь от каждой конкретной ситуации принимать решение об использовании той же компрессии.
Не все данные одинаковы.
В зависимости от конкретной ситуации диапазон запросов для бизнес-аналитики меняется в широких пределах. Часто для получения необходимой информации достаточно получить ответ на SQL-запрос, но встречаются и глубокие аналитические запросы, требующие применения наделенных бизнес-интеллектом инструментов и обладающих полным спектром возможностей приборной доски и визуализации. Чтобы не допустить резкого увеличения операционных расходов, нужно тщательно подойти к составлению сбалансированного списка необходимых патентованных технологий в сочетании с открытым ПО Apache Hadoop.
Масштабирование и управляемость.
Организации вынуждены решать проблему разнородности баз данных и аналитических сред, и в этой связи возможность масштабирования по горизонтали и вертикали имеет принципиальное значение. Собственно, как раз легкость горизонтального масштабирования и стала одной из основных причин быстрого распространения Hadoop. Особенно в свете возможности параллельной обработки информации на кластерах из обычных серверов (не требует от сотрудников узкоспециальных навыков) и экономии таким образом инвестиций в ИТ-ресурсы.