- •1.О языке обработки текста aql
- •2.Требования к обучаемому
- •3.Цели и задачи лабораторной работы
- •4.Сценарий лабораторной работы
- •Раздел 1: Импорт входных документов и словарей
- •Раздел 2: Маркировка ключевых слов в тексте
- •Раздел 3: Разработка экстрактора (aql)
- •Раздел 4: Тестирование экстрактора (aql)
- •Раздел 5: Изучение инструментов
- •Раздел 6: Экспорт результатов
- •5.Подготовка к лабораторной работе
- •7.1.Маркировка фрагментов текста
- •8.Раздел 3: Разработка экстрактора
- •Используя Package Explorer переместите папку dictionaries в
- •9.Раздел 4: Тестирование экстрактора
- •Столбец Span Attribute в центре окна Annotation Explorer показывает имена подразделений, извлеченные экстрактором.
- •9.2.Разработка основных экстракторов для Number, Unit и Revenue
- •9.2.1.В Extraction Plan переместитесь к RevenueByDivision → Labels → Amount. Щелкните правой кнопкой по New aql Statement и выберите Basic Feature aql Statement.
- •9.2.2.В диалоговом окне Create aql Statement введите "Number" как View Name и выберете Regular Expression как type.
- •9.2.3.Необходимо исправить следующие ошибки:
- •9.2.4.Выполните шаги, описанные в прошлом разделе и заполните диалоговое окно для “Create aql Statement”.
- •9.2.6.Обновите шаблон для ‘create view unit’, добавьте флаг следующим образом: “with flags 'IgnoreCase’ ” между строками extract и on
- •9.2.7.Переместитесь в RevenueByDivision → Labels → Revenue. Щелкните правой кнопкой по Revenue и выберите New aql Statement. Выберите Basic Features aql statement.
- •9.2.8.Выполните шаги, утвержденные в прошлом разделе и заполните диалоговое окно для “Create aql Statement”.
- •9.2.10.На данном этапе Extraction Plan должен выглядеть следующим образом:
- •9.3.Разработка дополнительных экстракторов
- •9.4.5.Теперь эти представления могут быть использованы в текущем модуле для экстрактора AmountwithUnit. Переместитесь к aql скрипту этого экстрактора.
- •9.4.6.Добавьте следующие строки кода в самом начале, сразу после названия модуля, для RevenueByDivision_CandidateGeneration, чтобы импортировать требуемые представления в текущий модуль.
- •9.6.Расширение экстрактора для RevenueByDivision: включение информации AmountwithUnit
- •Вернитесь в терминал и запустите браузер командой firefox
- •12.Результаты
Вернитесь в терминал и запустите браузер командой firefox
Рис. 71 – Запуск браузера Firefox
Выберите в Firefox пункт меню File -> Open file… Перейдите в каталог /home/<имя_пользователя>/html/ и откройте файл DivRevenueWithAmount.html
Рис. 72 – Открытие файла для просмотра результата
Рис. 73 – Структурированный документ с доходами подразделений
|
Вопрос № 5: В каких форматах создается результирующая информация? ________________________________________________________ |
12.Результаты
В этой лабораторной работе вы познакомились с тем, как использовать функции текстовой аналитики в BigInsights. Работая главным образом в среде IBM Data Studio используя встроенный инструментарий BigInsights Eclipse вы получили представление об основных возможностях, концепциях, моделях, стандартных выражениях и о многим другим. Выполнение шагов разработки, тестирования и реализации экстракторов показало вам, насколько просто при помощи AQL можно извлекать из больших массивов текстовых данных необходимую информацию. План извлечения (Extraction Plan) помог вам отслеживать все основные возможности, концепции и т.д. Вы можете объединить то, что вы изучили здесь с другими инструментами Big Data, такими как BigSheets, JAQL и Streams.
Теперь вы знаете, как выполнять следующие задачи:
Анализировать неструктурированную текстовую информацию с помощью инструментов аналитики;
Создавать информационные экстракторы из набора данных;
Просматривать, понимать, и устранять недостатки в результатах экстрактора.
