ЦЕНТР КОМПЕТЕНЦИИ ПО ТЕХНОЛОГИИ
IBM BIG DATA
Анализ потоковой информации с использованием специализированных языков обработки потоков данных
Лабораторная работа № 6
ЕС-лизинг
МОСКВА 2014
Оглавление
1. О продукте IBM InfoSphere Streams 3
2. Требования к обучаемому 3
3. Цели и задачи лабораторной работы 4
4. Сценарий лабораторной работы 4
5. Подготовка к лабораторной работе 5
6. Создание нового проекта 15
7. Разработка приложения 17
8. Запуск приложения 25
9. Просмотр результатов 26
10. Результаты 29
1.О продукте ibm InfoSphere Streams
IBM InfoSphere Streams (“Streams”) предназначено для проведения оперативного анализа больших массивов данных в режиме реального времени. InfoSphere Streams представляет собой платформу для разработки и запуска приложений для сбора, фильтрации, анализа и выявления логических взаимосвязей в потоках данных.
InfoSphere Streams состоит из следующих основных компонентов:
Streams Runtime Engine – «Движок» Streams. Это набор распределенных процессов, работающих совместно, что способствует запуску приложений потоковой обработки на заданном количестве серверов кластера. Один такой объект называется Streams Instance.
Streams Processing Language (SPL) – Декларативный язык и фреймворк для написания приложений обработки потоковых данных.
Streams Studio (“Studio”) – Среда разработки на основе Eclipse. Она используется для написания, компилирования, запуска, визуализации, и отладки приложений Streams. Инструмент разработки поддерживает графический интерфейс (“drag & drop”) и быструю визуализацию данных в работающем приложении. Instance Graph дает возможность увидеть детали работающего приложения: метрики потока данных и многочисленные цветные схемы, что позволяет быстрее понимать и проводить диагностику потоков данных.
InfoSphere Streams Console – это графический веб-интерфейс пользователя, работающий на базе Streams Web Service (SWS). Streams Console можно использовать для мониторинга и управления объектами и приложениями Streams. Открыть веб-консоль можно с любого компьютера, имеющего возможность HTTPS подключения к серверу, на котором запущен SWS. Streams Console так же поддерживает визуализацию данных в диаграммы и таблицы.
Streamtool – Предоставляет доступ к Streams Runtime Engine посредством интерфейса командной строки.
2.Требования к обучаемому
Предполагается, что вы уже знакомы со средой разработки Eclipse и ее основными элементами.
3.Цели и задачи лабораторной работы
Цель данной лабораторной работы – познакомить обучаемого со специализированным языком обработки потоковых данных SPL (Streams Processing Language) и научить применять его в разработке приложений в Streams Studio.
Данная лабораторная работа представляет собой знакомство с Geospatial Toolkit – инструментом в IBM InfoSphere Streams для работы с геоданными. При выполнении данной лабораторной работы вами будет создано приложение, применяющее некоторые возможности Geospatial Toolkit. Сценарий приложения может быть использован в сервисах, использующих данные о местоположении – Location Based Services (LBS). Данные о местоположении позволяют предоставлять услуги или осуществлять целенаправленную рекламу, основываясь на информации о местоположении перемещающегося объекта – автомобилей или людей с мобильными телефонами. Например, администрация кафе-бара может знать, какие мобильные телефоны находятся вблизи в данный момент и отправлять им приглашения или скидки.
В данной лабораторной работе разработка приложения будет выполняться с использованием специализированного языка обработки потоковых данных – SPL (Streams Processing Language).
В ходе выполнения работы вы научитесь:
Определять типы данных на языке SPL;
Использовать основные операторы Streams в коде SPL;
Создавать потоки данных, используя код SPL.
