Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
5 лаб5_AQL.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
4.23 Mб
Скачать

ЦЕНТР КОМПЕТЕНЦИИ ПО ТЕХНОЛОГИИ

IBM BIG DATA

Структурирование данных с помощью

специализированных языков обработки

текстовой информации

Лабораторная работа № 5

ЕС-лизинг

МОСКВА 2014

Оглавление

1. О языке обработки текста AQL 3

2. Требования к обучаемому 3

3. Цели и задачи лабораторной работы 3

4. Сценарий лабораторной работы 3

5. Подготовка к лабораторной работе 5

6. Раздел 1: Импорт входных документов и словарей 8

6.1. Создание проекта для анализа текста 8

6.2. Копирование входных файлов и словарей 13

6.3. Выбор документов для анализа 19

7. Раздел 2: Маркировка текста 20

7.1. Маркировка фрагментов текста 21

7.2. Маркировка ключевых слов 23

8. Раздел 3: Разработка экстрактора 27

9. Раздел 4: Тестирование экстрактора 31

9.1. Использование словаря для экстрактора 32

9.2. Разработка основных экстракторов для Number, Unit и Revenue 33

9.3. Разработка дополнительных экстракторов 39

9.4. Создание экстрактора AmountwithUnit 40

9.5. Создание экстрактора для RevenueByDivision 43

9.6. Расширение экстрактора для RevenueByDivision: включение информации AmountwithUnit 48

10. Раздел 5: Изучение инструментов 51

10.1. Просмотр таблицы с результатами 51

10.2. Фильтрация данных 51

10.3. Функция наведения мыши, для объяснения аннотируемого текста 54

11. Раздел 6: Экспорт результатов 55

12. Результаты 57

1.О языке обработки текста aql

InfoSphere BigInsights обладает мощными возможностями текстового анализа, позволяющими достаточно просто формировать правила извлечения необходимых данных из больших массивов текстовой информации.

Annotation Query Language (AQL) - язык для создания «набора правил» или экстракторов, которые извлекают структурированную информацию из неструктурированного или полуструктурированного текста. AQL - основной метод создания экстракторов в системе текстовой аналитики InfoSphere BigInsights.

2.Требования к обучаемому

Предполагается, что вы уже знакомы со средой разработки Eclipse в режиме BigInsights.

3.Цели и задачи лабораторной работы

Цель данной лабораторной работы – ознакомить обучаемых со специализированным языком обработки текстовой информации AQL (Annotation Query Language), научить использовать его для структурирования данных.

После выполнения данной практической лабораторной работы вы сможете решать следующие задачи:

  • Анализировать неструктурированную текстовую информацию с помощью инструментов аналитики;

  • Создавать информационные экстракторы из набора данных;

  • Просматривать, понимать, и устранять недостатки в результатах экстрактора.

4.Сценарий лабораторной работы

В данной лабораторной работе вы проанализируете информацию о квартальных доходах IBM с 2006 по 2010 год, извлечете имена подразделений IBM и их доходы.

Лабораторная работа состоит из шести разделов, в каждом из которых реализуется задача в соответствии с рис.1.

Рис.1 – Алгоритм текстовой аналитики

Раздел 1: Импорт входных документов и словарей

В этом разделе мы познакомимся с импортом документов в Data Studio IDE. Для выполнения лабораторной работы мы импортируем текстовый файл, который будем анализировать, и словарь, содержащий названия подразделений IBM.

Раздел 2: Маркировка ключевых слов в тексте

Данный раздел посвящен разработке «Плана извлечения». Мы определим два основных понятия и несколько характеристик:

Понятие

Характеристика

Упоминание о доходе подразделения

Название подразделения

Отчет о доходах этого подразделения

Целые и десятичные числа

Раздел 3: Разработка экстрактора (aql)

В этом разделе вы опишите логику извлечения данных по основным характеристикам используя AQL код. Вы разработаете экстракторы для четырех основных характеристик: название подразделений, число (сумма дохода), единица измерения дохода (миллион, миллиард), и упоминание термина «revenue» (англ. доход).

Раздел 4: Тестирование экстрактора (aql)

В этом разделе лабораторной работы вы воспользуетесь созданным в разделе 3 экстрактором для извлечения из текста информации о доходах, определенных в экстракторах подразделениях.

Раздел 5: Изучение инструментов

В разделе 5 лабораторной работы вы познакомитесь с инструментами для просмотра результатов выполнения вышеуказанных задач. Будут рассмотрены инструменты, используемые для:

  1. Просмотра результатов в табличной форме;

  2. Установки фильтров для строк, показанных на экране в области Annotation Explorer;

  3. Просмотр деталей маркированного текста в annotated document, используя возможность наведения курсора мыши.