Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОИТ шпоры.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
102.42 Кб
Скачать

17. Назнач. И возм-ти сист. Автомат. Чтения текста.

Для быстр.ввода текст.инф. в ПК исп.сканер.Чтобы перевести граф.изобр. в ткств ф,необход. сист автом.чтения текстов или OCR (optical character recognition)

OCR - прога,позв.преобраз.текст бум.носит.в электрон.файл.

Принципы работы OCR:

1. целостность(объект опис.как целое с пом.знач.элем.и отнош.м/у ними)

2. целенаправленность (распозн-е стр. как проц. выдвижения и целенаправл. проверки гипотез)

3. адаптивность (сп-ть комп. Сист. к самообучению)

Этапы работы системы Fine Reader:

1) сканирование - получение граф. образа документа

2) распознавание

а) анализ граф.макета стр.(выдел.обл.для распозн.)

б) распозн.кажд.симв.на основе различн.алгор. распозн.

3. проверка орфографии

4. сохранение

Алгоритмы распознавания (классификаторы)

1) шрифтозависимые (шаблонные) - растров.изображ. наклад.на шаблон,содерж.в бд,наиб.подход.явл.шаблон, у кот.наименьшее кол-во точек отлич. от исслед. изображения.

2) признаковые – распозн.подверг.не сам символ (оригинал), а некотор.его признаки, вычисл. по формулам.

Эти не отв.принц.целостн,ибо теряется существ. ч. инфы

3) структурные - содерж. инф-ю не о точечном изобр.симв, а о правилах начертания или структуре.

Стр.элем.явл. все сост-щие символ линии. Раб. с векторным изобр.Недостаток – чувствит. к дефектам изображения.

В Fine Reader работают все типы классификаторов.

Возможности системы:

1. во время сканир.автом.подбир.яркость,фрагментир. стр, распозн. символы, можно пров. орфографию.

2. позв.распозн.печат.симв(около 200 языков),рукопечатные, рукопис. (для КПК)

3. способность самообучаться и распозн. плохопропечат. символы и символы незнакомых языков.

4. распозн. изобр, полученные с помощью фотоаппаратов.

Развит.прог OCR идёт в напр.повыш.точности распозн.текстов низкого к-ва,рукопис.текста,выдел. екст.инф.на фоне шумов, интеграции OCR-систем с различн.прогами обраб. инфы.

30. Лир:осн.Сост: письм текст массивы, фонетич ресурсы

Письм.тхт.массивы – совт-ь тхтов, явл достат для обеспеч надёжн выводов (научн.) о яз, диалекте или ином подмн-ве яз

Созд таких корпусов - новое направл в лингв. Суть—достовер. данные о морфол,синт. и семант.стр-ре яз мб получены из достаточно большого массива текстов.

Корпусы текстов исп.:

1. в лексикологии(сост различн.сл-рей, выдел терминов, определения значения многознач. слов.)

2. в грамм(опред частоты употр грам.морфем, для выявл наиб употр-ых типов словосоч и предл,частоты употр классов слов)

3. в лингвистике(дифференц.типов тхт, созд конкордансов; при МП для созд.прав.стр-ры предл перевод. текста.

Как показ.рез-ты исп корпуса тхт, многие лингв.задачи с их пом не мб реш.Во многих яз нельзя устан прин-ть сл к тому или иному грам.классу, что не позв.опред.частоту употр.грам. классов сл, прав.стр-ру предл => употр-ть стр-ры, поэтому стали созд. тагированные корпусы текстов.

Сл т.корпуса получ.букв и цифр.индексы, к.обознач. их грам, лексич, семант структур. признаки.

Сущ. проги, к. произв.автомат.тегирование текста.

В послед.время стали созд.парал.тегир.корпусы тхт на 2 яз.

фонетические ресурсы (корпусы устной речи)

Глав.трудн-ть — необх.транскриб. устной речи.

В наст. время общепринято, что для созд машиночит-х фонетич.корпусов или транскрипц.на основе орфограф. представл звуков речи с доп. знаками, передающими (при необх) просодич, паралингв и др особенности произношения.

В мире сущ.много фонет. корпусов текстов, к. широко исп. для:

1) сопоставит. изуч. устн. и письм. формы яз.

2) для изучения грам. и лекс. особенностей уст. речи.

3) для исследования фонетич. особенностей диалектов

4) для построения частот. списков фонем и их соч-й

5) для созд. комп.сист исп.с целью распозн симв устной речи.

Напр,в США созд.корпус устн.р,сост.из 255 зап психоаналитич. сеансов (9 городов) Герм. - зап радиопер (222 тхт)