Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МиСОИ - Метод. вказівки до лаб. робіт.doc
Скачиваний:
37
Добавлен:
25.03.2015
Размер:
2.56 Mб
Скачать

Лабораторна робота №5 розпізнавання складноформатованих текстів

Мета роботи: ознайомитися з процесом розпізнавання текстів у програмі CuneiForm які мають складне форматування.

Теоретичні відомості

Загальна інформація щодо аналізу макета сторінки

Аналіз макета сторінки може проводитися як автоматично, так і вручну. Автоматичний аналіз проводиться по кнопці 3-Розпізнавання - авторозмітку. CuneiForm розрізняє області з текстом, таблиці та малюнки. Після цього можна розпізнати сторінку, натиснувши на кнопку 4-Розпізнавання.

Ручне виділення блоків може знадобитися, якщо:

  1. Ви хочете розпізнати частину сторінки;

  2. в наслідок автоматичного аналізу блоки були виділені невірно.

Типи блоків

Блоки - це взяті в рамку ділянки зображення. Блоки виділяють для того, щоб вказати системі, які ділянки відсканованої сторінки потрібно розпізнавати й у якому порядку.

Також з ним відтворюється вихідне оформлення сторінки.

Блоки різних типів мають різні кольори рамок.

При обробці зображень виділяють блоки наступних типів:

Текстовий блок - блок використовується для позначення тексту. Він повинен містити лише одноколоночний текст. Якщо всередині тексту містяться зображення, виділіть їх в окремі блоки.

Таблиця - цей блок використовується для позначення таблиць або тексту, що має табличну структуру. При розпізнаванні програма розбиває даний блок на рядки та стовпці і формує табличну структуру. У вихідному тексті даний блок передається таблицею. Ви можете виділити і відредагувати таблицю вручну.

Зображення - цей блок використовується для позначення зображень. Він може містити зображення або будь-яку іншу частину тексту, яку Ви хочете передати в розпізнаний текст як растрового зображення.

Параметри автоматичного аналізу макета сторінки

При автоматичному аналізі макета сторінки CuneiForm сам виділяє блоки, що містять тексти, таблиці і малюнки.

Автоматичний аналіз запускається кнопкою 3-Розмітка, де відбувається розмітка на блоки кожного типу. До запуску розпізнавання необхідно встановити параметри розмітки і розпізнавання, які були описані в лабораторній роботі № 4.

Тип сторінки

Для більшості зображень розташування тексту на сторінці визначається автоматично. Щоб встановити порядок самостійно, потрібно на панелі Розмітка вибрати інструмент Пронумерувати блоки та встановити порядок блоків.

Параметр Таблиця не містить об'єднані клітинки використовується для впевненого аналізу таблиць, що не містять об'єднаних осередків.

Температура

За Цельсієм По

За Кельвіном

-273 0

100 373

- Приклад таблиці з об'єднаної осередком

Зауваження. На таблицях загальної структури або на сторінках з таблицями різної структури відзначені параметри У кожній клітинці таблиці не більше одного рядка тексту і Таблиця не містить об'єднаних комірок можуть призвести до помилок аналізу і відповідно знизити якість розпізнавання.

Ручний аналіз таблиці

Порада: Якщо в результаті автоматичного аналізу таблиці розподілення на рядки і стовпці сталося не так, перш ніж аналізувати таблицю вручну заново, спробуйте спочатку відредагувати результати автоматичного аналізу.

Щоб відредагувати таблицю вручну:

Відредагуйте таблицю, використовуючи інструменти (панель у вікні Зображення):

- Додати вертикальну лінію.

- Додати горизонтальну лінію.

- Видалити лінію.

Якщо клітинка таблиці містить тільки зображення, у діалозі Властивості блоку (меню Від> Параметри) виберіть пункт Вважати клітинку картинкою. Якщо ж, крім зображення, в клітинці міститься певний текст, то виділіть зображення в окремий блок всередині комірки.

Щоб об'єднати клітинки або рядки таблиці:

в меню Правка виберіть пункти Об'єднати комірки таблиці або Об'єднати рядки таблиці. При об'єднанні рядків таблиці розподіл на стовпчики залишається. Об'єднані комірки можна знову розділити, скориставшись командою Розбити комірки таблиці (меню Правка).

Зауваження. Щоб не малювати вертикальні і горизонтальні лінії в таблиці, виділить таблицю в окремий блок і натисніть правою кнопкою миші на блоці. У локальному меню виберіть пункт Аналіз структури таблиці. А потім, використовуючи інструменти для роботи з таблицею, відредагуйте отримані результати.