- •1.О языке обработки текста aql
- •2.Требования к обучаемому
- •3.Цели и задачи лабораторной работы
- •4.Сценарий лабораторной работы
- •Раздел 1: Импорт входных документов и словарей
- •Раздел 2: Маркировка ключевых слов в тексте
- •Раздел 3: Разработка экстрактора (aql)
- •Раздел 4: Тестирование экстрактора (aql)
- •Раздел 5: Изучение инструментов
- •Раздел 6: Экспорт результатов
- •5.Подготовка к лабораторной работе
- •7.1.Маркировка фрагментов текста
- •8.Раздел 3: Разработка экстрактора
- •Используя Package Explorer переместите папку dictionaries в
- •9.Раздел 4: Тестирование экстрактора
- •Столбец Span Attribute в центре окна Annotation Explorer показывает имена подразделений, извлеченные экстрактором.
- •9.2.Разработка основных экстракторов для Number, Unit и Revenue
- •9.2.1.В Extraction Plan переместитесь к RevenueByDivision → Labels → Amount. Щелкните правой кнопкой по New aql Statement и выберите Basic Feature aql Statement.
- •9.2.2.В диалоговом окне Create aql Statement введите "Number" как View Name и выберете Regular Expression как type.
- •9.2.3.Необходимо исправить следующие ошибки:
- •9.2.4.Выполните шаги, описанные в прошлом разделе и заполните диалоговое окно для “Create aql Statement”.
- •9.2.6.Обновите шаблон для ‘create view unit’, добавьте флаг следующим образом: “with flags 'IgnoreCase’ ” между строками extract и on
- •9.2.7.Переместитесь в RevenueByDivision → Labels → Revenue. Щелкните правой кнопкой по Revenue и выберите New aql Statement. Выберите Basic Features aql statement.
- •9.2.8.Выполните шаги, утвержденные в прошлом разделе и заполните диалоговое окно для “Create aql Statement”.
- •9.2.10.На данном этапе Extraction Plan должен выглядеть следующим образом:
- •9.3.Разработка дополнительных экстракторов
- •9.4.5.Теперь эти представления могут быть использованы в текущем модуле для экстрактора AmountwithUnit. Переместитесь к aql скрипту этого экстрактора.
- •9.4.6.Добавьте следующие строки кода в самом начале, сразу после названия модуля, для RevenueByDivision_CandidateGeneration, чтобы импортировать требуемые представления в текущий модуль.
- •9.6.Расширение экстрактора для RevenueByDivision: включение информации AmountwithUnit
- •Вернитесь в терминал и запустите браузер командой firefox
- •12.Результаты
ЦЕНТР КОМПЕТЕНЦИИ ПО ТЕХНОЛОГИИ
IBM BIG DATA
Структурирование данных с помощью
специализированных языков обработки
текстовой информации
Лабораторная работа № 5
ЕС-лизинг
МОСКВА 2014
Оглавление
1. О языке обработки текста AQL 3
2. Требования к обучаемому 3
3. Цели и задачи лабораторной работы 3
4. Сценарий лабораторной работы 3
5. Подготовка к лабораторной работе 5
6. Раздел 1: Импорт входных документов и словарей 8
6.1. Создание проекта для анализа текста 8
6.2. Копирование входных файлов и словарей 13
6.3. Выбор документов для анализа 19
7. Раздел 2: Маркировка текста 20
7.1. Маркировка фрагментов текста 21
7.2. Маркировка ключевых слов 23
8. Раздел 3: Разработка экстрактора 27
9. Раздел 4: Тестирование экстрактора 31
9.1. Использование словаря для экстрактора 32
9.2. Разработка основных экстракторов для Number, Unit и Revenue 33
9.3. Разработка дополнительных экстракторов 39
9.4. Создание экстрактора AmountwithUnit 40
9.5. Создание экстрактора для RevenueByDivision 43
9.6. Расширение экстрактора для RevenueByDivision: включение информации AmountwithUnit 48
10. Раздел 5: Изучение инструментов 51
10.1. Просмотр таблицы с результатами 51
10.2. Фильтрация данных 51
10.3. Функция наведения мыши, для объяснения аннотируемого текста 54
11. Раздел 6: Экспорт результатов 55
12. Результаты 57
1.О языке обработки текста aql
InfoSphere BigInsights обладает мощными возможностями текстового анализа, позволяющими достаточно просто формировать правила извлечения необходимых данных из больших массивов текстовой информации.
Annotation Query Language (AQL) - язык для создания «набора правил» или экстракторов, которые извлекают структурированную информацию из неструктурированного или полуструктурированного текста. AQL - основной метод создания экстракторов в системе текстовой аналитики InfoSphere BigInsights.
2.Требования к обучаемому
Предполагается, что вы уже знакомы со средой разработки Eclipse в режиме BigInsights.
3.Цели и задачи лабораторной работы
Цель данной лабораторной работы – ознакомить обучаемых со специализированным языком обработки текстовой информации AQL (Annotation Query Language), научить использовать его для структурирования данных.
После выполнения данной практической лабораторной работы вы сможете решать следующие задачи:
Анализировать неструктурированную текстовую информацию с помощью инструментов аналитики;
Создавать информационные экстракторы из набора данных;
Просматривать, понимать, и устранять недостатки в результатах экстрактора.
4.Сценарий лабораторной работы
В данной лабораторной работе вы проанализируете информацию о квартальных доходах IBM с 2006 по 2010 год, извлечете имена подразделений IBM и их доходы.
Лабораторная работа состоит из шести разделов, в каждом из которых реализуется задача в соответствии с рис.1.
Рис.1 – Алгоритм текстовой аналитики
Раздел 1: Импорт входных документов и словарей
В этом разделе мы познакомимся с импортом документов в Data Studio IDE. Для выполнения лабораторной работы мы импортируем текстовый файл, который будем анализировать, и словарь, содержащий названия подразделений IBM.
Раздел 2: Маркировка ключевых слов в тексте
Данный раздел посвящен разработке «Плана извлечения». Мы определим два основных понятия и несколько характеристик:
Понятие |
Характеристика |
Упоминание о доходе подразделения |
Название подразделения |
Отчет о доходах этого подразделения |
Целые и десятичные числа |
Раздел 3: Разработка экстрактора (aql)
В этом разделе вы опишите логику извлечения данных по основным характеристикам используя AQL код. Вы разработаете экстракторы для четырех основных характеристик: название подразделений, число (сумма дохода), единица измерения дохода (миллион, миллиард), и упоминание термина «revenue» (англ. доход).
Раздел 4: Тестирование экстрактора (aql)
В этом разделе лабораторной работы вы воспользуетесь созданным в разделе 3 экстрактором для извлечения из текста информации о доходах, определенных в экстракторах подразделениях.
Раздел 5: Изучение инструментов
В разделе 5 лабораторной работы вы познакомитесь с инструментами для просмотра результатов выполнения вышеуказанных задач. Будут рассмотрены инструменты, используемые для:
Просмотра результатов в табличной форме;
Установки фильтров для строк, показанных на экране в области Annotation Explorer;
Просмотр деталей маркированного текста в annotated document, используя возможность наведения курсора мыши.
