
- •Задачи интеллектуального анализа: кластеризация
- •Распределенные вычисления на примере cloud-based по на примере prezi.Com
- •Условия использования сервиса Prezi.Com
- •Технология Redis
- •Программное обеспечение интеллектуального анализа: Система statistica Data Miner
- •Программное обеспечение интеллектуального анализа: Oracle Data Mining
- •Понятие «Data mining», Data mining и базы данных.
- •Архитектура odm
- •Функциональные возможности odm.
- •Технология BigTable (Google)
- •MapReduce: модель и реализации.
- •2. Реализация в распределенной среде.
- •3. Расширенные средства.
- •«Методы Data Mining: ассоциативные правила»
- •1. Определение. Основные понятия
- •2. Типы ассоциативных правил
- •3. Алгоритм apriori
- •4. Применение
- •«Методология Data Mining: crisp-dm»
- •Понимание бизнеса (Business Understanding)
- •Понимание данных (Data Understanding)
- •Подготовка данных (Data Preparation)
- •Моделирование (Modeling)
- •Оценка (Evaluation)
- •Развертывание (Deployment)
- •Большие данные
- •История
- •Методики анализа больших данных
- •Почему данные стали большими
- •Аналитический инструментарий
- •Как справиться с большими данными?
- •Кому выгодны большие данные
- •Проблема больших данных в различных отраслях
- •Информационной экономике нужны миллионы ит-сотрудников
- •10, Спрос на администраторов Big data
- •Стадии интеллектуального анализа: задача консолидации
- •Основные этапы консолидации данных
- •Источники данных
- •Обобщенная схема процесса консолидации
- •Вероятностный вывод
- •Методы интеллектуального анализа : эволюционное программирование и генетические алгоритмы
- •Применение генетических алгоритмов
- •Примеры программного обеспечения
- •Методы интеллектуального анализа: деревья решений
- •Документно-ориентированная система управления базами данных CouchDb
- •Ftp Сервер
- •Методы интеллектуального анализа: иерархические модели кластерного анализа
- •Документно-ориентированная система управления базами данных MongoDb
- •2.Понятие о документно-ориентированной системе управления базами данных MongoDb
- •3. Возможности
- •4.История разработки
- •5. Использование MongoDb
- •6.Оценка производительности
- •7.Безопасность
- •8. Соответствие между sql и MongoDb
- •Простые запросы на выборку
- •Запросы на выборку с регулярными выражениями
- •Запросы на выборку с группировками
- •Запросы на выборку с объединением таблиц
- •Информация о запросе
- •Создание, изменение и удаление документов
- •Бизнес-анализ
- •Часть 1. Понятие «бизнес-анализ»
- •Часть 2. Разделы науки бизнес-анализа
- •Часть 3. Техники бизнес-анализа
- •Часть 4.Система бизнес-анализа и поддержки принятия решений
- •Часть 5. Методы бизнес-анализа
- •6. Роли бизнес-аналитиков
- •7. Цели бизнес-аналитиков
- •8.Выдержки из должностной инструкции бизнес-аналитика
- •9.Будущее бизнес-аналитики
- •Иску́сственные нейро́нные се́ти
- •Систе́ма подде́ржки приня́тия реше́ний
- •1. Сппр- хранилище данных
- •2. Аналитические системы
- •Субд Cassandra
- •Хранилища данных и средства их построения Data Warehousing
- •Программное обеспечение интеллектуального анализа: statistica
- •Бурение и расслоение
- •Классификатор
- •Разведчик многомерных моделей
- •Нейросетевой разведчик
- •Рабочее пространство statistica Data Miner состоит из четырех основных частей:
- •Автоматизация любых процедур с помощью statistica Visual Basic;
8.Выдержки из должностной инструкции бизнес-аналитика
Бизнес-аналитик должен знать:
Основы теории организации.
Управление персоналом.
Правовые аспекты бизнес-анализа и управления проектами.
Основы интеллектуальной собственности.
Основы финансового менеджмента.
Внутрифирменное бюджетирование и управленческий учет.
Контроллинг.
Основы менеджмента.
Практический маркетинг.
Искусство презентации.
Клиентоориентацию.
Основы логистики.
Применение различных программных универсальных и специальных продуктов.
Бизнес-аналитик осуществляет следующие должностные обязанности:
- ведение проектов предприятия;
- предварительный сбор информации;
- разработка планов выполнения работ (оказания услуг);
- ведение учета исполнения работ (оказания услуг);
- разработка отдельных положений проектов;
- предоставление отчетов по проектам;
- описание и анализ бизнес-процессов;
- поддержание информации в актуальном состоянии;
- оптимизация, документирование бизнес процессов;
- осуществление реинжиниринга;
Бизнес-аналитик имеет право:
Получать от работников предприятия информацию, необходимую для осуществления своей деятельности.
Представлять на рассмотрение своего непосредственного руководителя предложения по вопросам своей деятельности.
Бизнес-аналитик несет ответственность за:
Невыполнение или ненадлежащие выполнение своих функциональных обязанностей.
Недостоверную информацию о состоянии выполнения своих должностных обязанностей.
Невыполнение приказов, распоряжений и поручений Генерального директора организации и непосредственного руководителя.
Непринятие мер по пресечению выявленных нарушений правил техники безопасности, противопожарных и других правил, создающих угрозу деятельности организации и ее работникам.
Несоблюдение трудовой и исполнительской дисциплины.
9.Будущее бизнес-аналитики
Из всех приложений бизнес-аналитики в следующем десятилетии наибольший рост продемонстрирует прогнозная аналитика, позволяющая оценивать вероятность реализации событий в будущем.
Объем продаж технологий предсказательной аналитики (Predictive Analysis, PA) или прогнозной аналитики ежегодно увеличивается на 8-10%, и ясно, почему так происходит: PA позволяет рассчитывать будущее, что является самым важным для бизнес-аналитики. О РА еще можно сказать, что это подмножество области, называемой разработкой, или добычей данных (data mining), поскольку прогнозирование существующих и будущих тенденций строится на сведениях, содержащихся в уже накопленных данных. В основе РА лежат самые разные методы моделирования: кластеризация, деревья решений, регрессионное моделирование, нейронные сети, добыча текстов (text mining), проверка гипотез и др. Все эти разные методы объединены основной, давно известной идеей, сформулированной Ванневаром Бушем в 1945 году в статье As We May Think, где он описал приложение к своему гипотетическому компьютеру memex: «Важно не просто извлечь данные, но включить их в процесс получения знаний". Таким образом еще в те годы он поставил задачу, решаемую компьютерами на протяжении всех последующих десятилетий, — задачу трансформации данных в информацию и далее в знание. Потребовалось более 60 лет, чтобы этот, казалось бы, тривиальный тезис из предвидения стал превращаться в реальность. По сути, РA является одним из инструментов для осуществления той трансформации, которую предсказал Буш.
До сих пор область PA была элитарной, доступной серьезным математикам-статистикам и специалистам по количественному анализу, но, как обычно бывает, со временем область демократизируется — появляются новые и более доступные широкой публике по цене и сложности инструменты. Для более активного распространения PA складываются объективные условия, поскольку накапливаются огромные объемы неструктурированных данных, для работы с которыми создаются содержательные методы анализа текстов и технологии для работы с большими данными типа MapReduce и Hadoop. С определенным допущением можно сказать, что традиционные средства BI переходят на потребительский уровень и становятся ширпотребом, а PA занимает их авангардное место и образует площадку для конкуренции. Сейчас критически важно, кто первым предложит средства, которыми смогут пользоваться бизнес-аналитики и другие специалисты в прикладных областях, непрофессионалы по работе с информацией. Такие средства должны быть ориентированными на пользователя, не требовательными в работе с ними, обладать способностями к самообслуживанию и быть интегрированными с существующими технологиями BI, а также с инструментами, в том числе с хранилищами данных, поддерживаемыми классической аналитикой.
Бизнес начинает переосмысливать роль данных, и примером тому служит ставшая популярной, опубликованная в феврале 2011 года в Harvard Business Review статья "Как превратить ваши старые данные в золото бизнеса" (How to Turn Old Data into Business Gold). Понятно, что дело не столько в самих данных, сколько в технологиях, способствующих получению дополнительной информации. Для использования РА в качестве средства для извлечения этого «золота» и составления прогнозов есть несколько оснований. С одной стороны, имеются проверенные аналитические методы, основанные на математике, теории вероятностей, статистике, базах данных, прогнозном моделировании, отдельных дисциплинах искусственного интеллекта, например машинного обучения. С другой — у представителей "реального мира" складывается положительное отношение к аналитическим методам: около 90% внедривших приложения предсказательной аналитики положительно оценивают полученные результаты, а средняя оценка экономической эффектности проектов РА составляет 145%. О том, что "лед тронулся", свидетельствуют несколько событий: в середине 2009 года в состав корпорации IBM вошла компания SPSS; стала проводиться конференция Predictive Analytics World, ориентированная на приложения предсказательной аналитики для целей бизнеса; IBM провела первый корпоративный форум IBM Business Analytics Forum.
IBM Intelligent Miner
IBM Intelligent Miner представляет собой инструментарий для анализа и извлечения знаний, содержащихся в больших базах и банках данных. Intelligent Miner использует различные методы извлечения знаний, включая аппарат нейронных сетей, индукцию и статистические алгоритмы, а также обладает другими необходимыми средствами для извлечения знаний, включая средства подготовки и визуализации данных. Intelligent Miner работает напрямую с SQL средами базы данных. Однако, он не является системой извлечения знаний для конечного пользователя, а предназначен для разработчиков, которые хотят создавать приложения, анализирующие данные, хранящиеся в базах данных формата DB2 и в файлах без внутренней разметки. Он также обладает возможностью "быстрого извлечения" знаний из баз данных Oracle или Sybase и загрузки в базы данных DB2. Intelligent Miner предназначен для операций извлечения знаний в крупных корпорациях, использующих архитектуру "клиент-сервер".
Архитектура IM
пользовательский интерфейс (User Interface)
Наглядность использования основных функций извлечения и анализа, настройка пользовательского интерфейса
среда API (Environment Layer API)
Контроль выполняемых операций
описание данных (Data Definition)
Подготовка данных для интеллектуального анализа
визуализатор MI (Visualizer)
доступ к данным (Data Access)
Доступ к БД, плоским файлам
библиотека процессов (Processing Library)
Доступ к функциям базы данных, например загрузка данных и преобразования данных
Mining Bases
Коллекция объектов, используемых для целей интеллектуального анализа или бизнеса (доступен для серверных платформ)
Mining Kernels
Статистические функции
результаты интеллектуального анализа, результаты API, мастер экспорта (Mining Results, Result API, and Export Tools )
Визуализация результатов для пользователя, экспорт результатов
Сильной чертой Intelligent Miner является наличие многочисленных алгоритмов, которые делают его полезным для широкого круга операций извлечения знаний. По существу, они поддерживают все основные способы, связанные с извлечением знаний, включая механизмы выявления отклонений, кластеризации, классификации и прогнозирования, выявления ассоциаций, выявления образцов последовательностей и сегментации базы данных.
Таблица 1
Средства и функциональные возможности ИС Intelligent Miner
Средства |
Функциональные возможности |
Алгоритмы извлечения знаний |
|
Нейронные сети Индукция Статистические методы |
Алгоритм обратного распространения и оригинальные алгоритмы нейронной сети поддерживают возможность сегментации, кластеризации и классификации для построения моделей классификации и прогнозирования. Индукция с помощью деревьев решения обеспечивает возможность сегментации и классификации для построения моделей классификации и прогнозирования. Поддерживают возможность поиска схожих временных последовательностей, прогнозирования значений и более общую технику статистического анализа.
|
Средства подготовки данных |
|
Извлечение данных Выбор данных Преобразование данных Чистка данных Вывод данных |
Возможность "быстрого извлечения" из баз данных Oracle и Sybase и загрузки в DB2. Выбор, агрегирование, проектирование, группировка и обобщение данных (например, соединение фармацевтических данных транзакций с демографическими данными, относящимися к врачам). Символьное отображение, кодирование или дискретизация значений по областям или лингвистическим значениям типа высокий, средний, низкий. Фильтрация или удаление ошибочных данных (например, удаление демографических данных клиента в случае какой-либо ошибки). Получение математических или статистических значений (например, вычисление частоты транзакций клиента). |
Средства визуализации данных |
|
3-D GUIs (Xwindows/ Motif) Гистограммы, круговые диаграммы |
Визуализация результатов извлечения знания поддерживает интерактивную визуализацию и анализ как наблюдаемых, так и моделируемых данных в стандартном и 3D форматах и высокоуровневый язык построения сценариев Автоматически рисует гистограммы и круговые диаграммы для иллюстрации результатов анализа статистических сравнений и т.п. |
Механизм выявления отклонений определяет особенности в выделенном наборе данных и объясняет, являются ли они следствием шумов или вызваны причинно-следственными отношениями. Кластеризация в противоположность механизму выявления отклонений разбивает БД таким образом, чтобы записи со сходными характеристиками объединялись вместе.
Механизм классификации и моделирования прогнозов использует исторические данные для автоматической генерации модели, которая может спрогнозировать будущее поведение. Механизм выявления ассоциаций по данным транзакций определяет, как часто один набор сущностей влечет наличие других сущностей в данной транзакции. Механизм анализа связей создает отношения между записями в БД. Механизм сегментации базы данных разбивает БД на наборы родственных записей, что полезно для получения сводки (краткого изложения) БД или для выполнения операций, предшествующих извлечению знаний (например, построение модели и анализ связей).
Перечисленные способы могут быть использованы для многих операций извлечения знаний в различных предметных областях. Например, используя механизмы выявления отклонений, финансовые служб компании могут определить мошенническое использование кредитных карточек путем проверки отклонений в образцах кредитной карточки клиента. Используя механизмы моделирования прогнозов, розничный торговец может прогнозировать изменения в покупательском спросе и не отставать от того ассортимента товаров, который предлагается в телемаркетах и почтой. Используя механизмы выявления закономерностей, менеджер супермаркета может определить, какие продукты наиболее часто продаются по сравнению с другими продуктами, и снабжать магазины в соответствии с максимальной возможностью сбыта. Страховая компания может использовать данные сегментации клиентов для проведения маркетинговой или рекламной компаний среди существующих клиентов. Анализ образцов последовательностей может быть использован, например, медицинскими исследователями при определении общих шаблонов симптомов, указывающих на некоторое заболевание.
Наиболее популярными приложениями в области извлечения знаний являются классификация и моделирование прогнозов. Intelligent Miner поддерживает два способа построения классификаций и моделей прогнозов: индукция на основе деревьев решений и индукция на базе нейронных сетей. Первый алгоритм индукции полезен для наборов данных, которые содержат категориальные (безусловные) данные, такие как, возрастные группы, коды штатов, пол (мужчина/женщина). Алгоритмы индукции на основе нейронных сетей адекватны для наборов данных, содержащих непрерывно изменяемые данные такие, как данные о прибыли или годовом доходе.
В ИС Intelligent Miner заложены также некоторые оригинальные алгоритмы для обнаружения закономерностей или образцов последовательностей в наборе данных, которые соответствуют критериям, определенным пользователем. Алгоритмы выявления ассоциаций полезны, например, в маркетинге при определении того, какие продукты в супермаркете продаются вместе в одной транзакции. Например, основываясь на мнении нескольких консультантов по извлечению знаний, можно установить, что предметом, наиболее часто приобретаемой вместе с сушеной рыбой в выездных магазинах, является пиво. С другой стороны, алгоритм выявления образцов последовательностей хорош для анализа транзакций БД, которые имеют место в течении некоторого периода времени. Скажем, для определения закономерности, что наличие одного набора сущностей сопровождается другим набором сущностей, например, такой: "40 % новых клиентов, которые обращаются за АТМ карточкой в одной транзакции, также обратятся для подсчета издержек в течении последующих 90 дней".
Эти алгоритмы являются оригинальной разработкой фирмы IBM; они уникальны, т.к. позволяют выявлять все ассоциации и образцы в данных, а также хорошо работают на очень больших наборах данных, обычно при поиске в корпоративных базах данных.
Другие алгоритмы и технологии, поддерживаемые Intelligent Miner, включают выявление схожих временных последовательностей и прогноз значений. Механизм выявления схожих временных последовательностей полезен при анализе БД для поиска последовательностей, аналогичных заданной, или для выявления всех схожих последовательностей. Например, по ежедневной цене закрытия акций в 1996 году, требуется найти все аналогичные случаи.
Механизм прогноза значений адекватен для задач определения зависимости в БД значения одного атрибута от значений других атрибутов в той же записи и автоматической генерации модели, которая заранее может определить значение некоторого определенного атрибута для новой записи - например, определить вероятность подделки кредитной карточки..
Intelligent Miner включает также набор средств интерактивной визуализации, которые полезны для просмотра результатов операций извлечения знаний. Средства визуализации основаны на программном пакете фирмы IBM для визуализации 3D (трехмерных) данных - Visualization Data Explorer. Графический интерфейс Intelligent Miner основан на стандартах X-Windows и Motif и содержит полный набор стандартных средств визуализации при просмотре данных, таких, как показ плоскостей среза, треков векторных линий, объёмная визуализация и т.д. По существу, эти средства допускают интерактивную визуализацию и анализ как наблюдаемых, так и моделируемых данных.