Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
АСПЗ_ Системи розпізнавання_ПВ.doc
Скачиваний:
2
Добавлен:
07.05.2019
Размер:
140.29 Кб
Скачать

Голуб В.І.

Етапи та напрями розвитку автоматичного розпізнавання у поштовому зв’язку

Поява пристроїв автоматичного розпізнавання адреси стала однією з визначальних подій в історії автоматичного поштового обладнання, що значно підвищило ефективність процесу сортування пошти.

Зчитування розглядалось як процес, який потребує розумової праці, притаманній тільки людині. Перший прототип зчитувача поштової адреси, розроблений німецькою фірмою AEG та введений в експлуатацію у 1978 році, являв собою комплект обладнання, що розміщалось у чотирьох электронних шафах.

Результатом процесу зчитування був запис інформації у вигляді штрих-коду, яка потім легко зчитувалася стандартними пристроями в сортувальних машинах.

В той же час в Радянському Союзі на базі Одеського електротехнічного інституту зв"язку проводилась розробка та впровадження систем автоматичного розпізнавання шестизначного поштового індексу, написаного від руки у вигляді стилізованих цифр. Причому треба зазначити, що вибрана стратегія написання індексу за трафаретами себе виправдала тим, що за рівнем вірного розпізнавання радянські автоматизовані системи випередили аналогічні системи, що застосовувались за кордоном.

До сьогодні автоматичне зчитування адреси залишилось ключовою технологією для автоматичного сортування пошти.

У 70-х роках 20-го століття така апаратура могла лише зчитувати надруковані адреси стандартного формату. Норми написання адрес були чітко виписані для того, щоб забезпечити “прийнятний” рівень точності (наприклад, написання літер шрифтом постійної ширини, запрограмована відстань між словами, рядками, встановлений рівень контрасту при друкуванні, тощо).

Треба зазначити, що на той час вже застосовувалось автоматичне зчитування спеціальных банківських документів, форм та чеків. Але воно було дуже обмежене: один вид шрифту (фонт) і один рядок в наперед визначеній позиції. Результат був позитивний, але робота системи здійснювалась у так званому замкнутому циклу: дані - кодування – друк на бланк – зчитування – дані. Були прийняті міжнародні стандарти на шрифти для оптичного зчитування під назвою OCR-A та OCR-B. Характерною ознакою цих шрифтів було те, що до звичних обрисів цифр та літер (символів) додавались додаткові компоненти, які б збільшували відмінності між схожими символами.

В задачі зчитування поштових адрес відбулась радикальна зміна образів, які необхідно було розпізнавати. Зчитування поштових адрес є процесом с розімкнутим циклом, в якому не забезпечується управління друком або написанням. Тобто, необхідна була машина, яка б могла пристосовуватись до людини як клієнта пошти.

Пізніше, у 80-х, були розроблені потужніші алгоритми та задіяні більш прогресивні обчислювальні можливості. З метою запровадження високих обчислювальних технологій були виготовлені платформи із апаратними засобами для паралельних обчислювань. Головним завданням того часу було розробити метод зчитування адрес, написаних від руки. На цьому етапі знову були введені певні норми, спрямовані на вдосконалення зчитувальних можливостей (наприклад, заздалегідь надруковані рамки для поштового індексу, рядки для адреси, тощо).

Починаючи з 90-х років, наступні технологічні здобутки дозволили значно підвищити якість зчитування інформації пристроєм розпізнавання. В результаті якість автоматичного кодування підвищилась як на рівні зовнішньої інформації (зазвичай поштова зона або район), так і внутрішніх даних (вірні реквізити одержувача), а також навіть на рівні сортування, а саме—пункту доставки (окрема поштова скринька або інше місце доставки пошти). Було чітко окреслено мету—обробляти друковані або написані вручну адреси різного рівня складності та правильності написання, для того, щоб збільшити кількість поштових відправлень, що обробляється без допомоги ручного кодування. Разом з тим, на сьогоднішній день досі розробляються алгоритми, що розкодовували б адреси, написані в нестандартній формі—навіть з помилками, спричиненими людським фактором або через неточності у змісті файлів з даними, які використовуються для перевірки вірного написання адреси.

Не зважаючи на величезні зусилля початковий рівень автоматичного розпізнавання був меншим за 50% і тільки для вихідних даних: поштовий індекс, місто тощо.

Решта роботи виконувалась відеокодувальниками.

Більше 30-ти років розробок пішло на те, щоб виробити найзручніший спосіб розпізнавання адреси, незалежно від того, надрукована вона, чи написана від руки. Досягнення в цій сфері були втілені в життя у вигляді багатофункціональних розпізнавальних алгоритмів та завдяки розробці апаратного забезпечення на базі використання прогресивних інформаційних технологій.

На сьогодні досягнутий рівень автоматичного розпізнавання становить 93% для надрукованих адрес і 88% для рукописних, тобто в середньому 90% [].

Такі успіхи досягнуті завдяки технологічним досягненням у багатьох галузях. Удосконалення оптико-електронних приладів зчитування зображень дозволяє "фотографувати" зображення за допомогою матриці приладу із зарядовим зв"язком зі швидкістю понад 10 об"єктів за секунду і з високою роздільною здатністю.

Сканери обладнуються новітніми світлодіодними освітлювачами, які мають безліч переваг. Вони забезпечують невелике розсіювання тепла і завдяки цьому, майже повну відсутність накопиченого пилу, продовжений термін використання обладнання, а також постійну високу якість зображення. Регулятор освітлення автоматично компенсує фізичне старіння світлодіодних модулів та забезпечує рівномірну освітленість протягом всього терміну експлуатації. Техобслуговування не потребує особливих зусиль і підтримується щотижневим автоматичним калібруванням. Завдяки цьому зменшуються експлуатаційні витрати та витрати на техобслуговування сортувальноого обладнання.

Але найбільших успіхів досягнуто у розвитку алгоритмів розпізнавання та програмно-апаратних засобів для їх реалізації. І процес їх удосконалення постійно продовжується, тому слід виділити зміни в удосконаленні розпізнавальних систем поштового зв"язку, які вже відбулись та тенденції і напрями розвитку на майбутнє.

1. Розширення можливостей розпізнавання конфігурацій шрифтів від надрукованих до рукописних

Спочатку розпізнавальні системи налаштовувались на певні шрифти і кількість їх все збільшувалась, особливо після масового впровадження настільних принтерів ПЕОМ. Кількість фонтів стала збільшуватись від однієї сотні до багатьох тисяч, тому кінець кінцем розробники відмовились від аналізу та запам"ятовування фонтів і перейшли до аналізу та зчитування всіх шрифтів і навіть рукописних.

Американська фірма Parascript, що запровадила технологію оптичного зчитування символів для поштової служби США та Великобританії, вдосконалила процес зчитування адрес, написаних від руки. Її остання технологія розпізнавання, що покладена в основу системи Intelligent Character Recognition (ICR), працює на трьох етапах розпізнавання поштових адрес. Вона зчитує дані, написані на конверті, інтерпретує їх та перекодовує отриману інформацію в електронну форму, яку можна зберігати, аналізувати та використовувати для швидкої обробки пошти. При інтерпретації адрес, написаних вручну, система ICR перш ніж обробляти лист перекодовує адресу в друковані символи. Після вдалого розпізнавання слова адреси звіряють з відповідним набором слів в базі даних. Після того, як підбір відбувся, поштове відправлення слідує далі до адресата.

Цей процес ускладнюється розриванням слів, написаних від руки, на окремі літери, адже на відміну від стандартизованого машинного шрифту, не існує двох людей, які пишуть листи однаково. І навіть кожна людина може написати один і той самий лист по-різному в залежності від умов роботи та настрою.

Тому головним завданням при розпізнаванні адрес, написаних вручну, є відокремлення однієї літери від іншої. Система ICR також намагається розглядати кожне слово в цілому і максимально використовувати контекст. Так само як людина, коли читає слово і не може відрізнити «а» від «о», то використовує контекст, де було вжито дане слово і намагається зрозуміти зміст.

Прогресивні розпізнавальні системи типу ICR компанії Parascript, які постачаються також компаніями …. і інші, користуються словниками для підбору первинних зображень. Якщо підбір символів та слів не відбувається відразу, розглядаються інші можливості.

Збір актуальної інформації в поштові бази даних максимізують шанси на розпізнавання адрес та імен. Достовірність інформації в таких базах даних є визначальною складовою процесу розпізнавання.

2. Збільшення кількості рядків зчитування та розпізнавання

Збільшення глибини сортування вимагало розвитку систем від зчитування одного рядка до все більшої кількості рядків поштової адреси, або від названих вище даних для сортування вихідної пошти до даних для вхідної пошти і, в кінці кінців, до зчитування пункту доставки. З самого початку було ясно, що надійне зчитування адрес можливе тільки тоді, коли поштовий код і адреса зчитуються і порівнюються один з одним.

Перші зчитувачі могли розпізнавати тільки поштовий код та назву міста, що зазвичай розташовувались на нижній линії адреси.

Потім почали використовувати назву вулиці та номер будинку, щоб забезпечити інформацію про місце доставки, яка потрібна для автоматичного сортування у порядку проходу листоноші по доставній дільниці.

Провідними розробниками та виробниками розпізнавальних систем багаторядкові зчитувачі були вдосконалені для представлення повної адреси, включно з назвою компанії чи прізвищем отримувача.