Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский государственный педагогический университет им. М. Танка

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ОИТ шпоры.docx

Скачиваний:

Добавлен:

01.05.2025

Размер:

102.42 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 1310 11 12 13 > Следующая >>>

17. Назнач. И возм-ти сист. Автомат. Чтения текста.

Для быстр.ввода текст.инф. в ПК исп.сканер.Чтобы перевести граф.изобр. в ткств ф,необход. сист автом.чтения текстов или OCR (optical character recognition)

OCR - прога,позв.преобраз.текст бум.носит.в электрон.файл.

Принципы работы OCR:

1. целостность(объект опис.как целое с пом.знач.элем.и отнош.м/у ними)

2. целенаправленность (распозн-е стр. как проц. выдвижения и целенаправл. проверки гипотез)

3. адаптивность (сп-ть комп. Сист. к самообучению)

Этапы работы системы Fine Reader:

1) сканирование - получение граф. образа документа

2) распознавание

а) анализ граф.макета стр.(выдел.обл.для распозн.)

б) распозн.кажд.симв.на основе различн.алгор. распозн.

3. проверка орфографии

4. сохранение

Алгоритмы распознавания (классификаторы)

1) шрифтозависимые (шаблонные) - растров.изображ. наклад.на шаблон,содерж.в бд,наиб.подход.явл.шаблон, у кот.наименьшее кол-во точек отлич. от исслед. изображения.

2) признаковые – распозн.подверг.не сам символ (оригинал), а некотор.его признаки, вычисл. по формулам.

Эти не отв.принц.целостн,ибо теряется существ. ч. инфы

3) структурные - содерж. инф-ю не о точечном изобр.симв, а о правилах начертания или структуре.

Стр.элем.явл. все сост-щие символ линии. Раб. с векторным изобр.Недостаток – чувствит. к дефектам изображения.

В Fine Reader работают все типы классификаторов.

Возможности системы:

1. во время сканир.автом.подбир.яркость,фрагментир. стр, распозн. символы, можно пров. орфографию.

2. позв.распозн.печат.симв(около 200 языков),рукопечатные, рукопис. (для КПК)

3. способность самообучаться и распозн. плохопропечат. символы и символы незнакомых языков.

4. распозн. изобр, полученные с помощью фотоаппаратов.

Развит.прог OCR идёт в напр.повыш.точности распозн.текстов низкого к-ва,рукопис.текста,выдел. екст.инф.на фоне шумов, интеграции OCR-систем с различн.прогами обраб. инфы.

30. Лир:осн.Сост: письм текст массивы, фонетич ресурсы

Письм.тхт.массивы – совт-ь тхтов, явл достат для обеспеч надёжн выводов (научн.) о яз, диалекте или ином подмн-ве яз

Созд таких корпусов - новое направл в лингв. Суть—достовер. данные о морфол,синт. и семант.стр-ре яз мб получены из достаточно большого массива текстов.

Корпусы текстов исп.:

1. в лексикологии(сост различн.сл-рей, выдел терминов, определения значения многознач. слов.)

2. в грамм(опред частоты употр грам.морфем, для выявл наиб употр-ых типов словосоч и предл,частоты употр классов слов)

3. в лингвистике(дифференц.типов тхт, созд конкордансов; при МП для созд.прав.стр-ры предл перевод. текста.

Как показ.рез-ты исп корпуса тхт, многие лингв.задачи с их пом не мб реш.Во многих яз нельзя устан прин-ть сл к тому или иному грам.классу, что не позв.опред.частоту употр.грам. классов сл, прав.стр-ру предл => употр-ть стр-ры, поэтому стали созд. тагированные корпусы текстов.

Сл т.корпуса получ.букв и цифр.индексы, к.обознач. их грам, лексич, семант структур. признаки.

Сущ. проги, к. произв.автомат.тегирование текста.

В послед.время стали созд.парал.тегир.корпусы тхт на 2 яз.

фонетические ресурсы (корпусы устной речи)

Глав.трудн-ть — необх.транскриб. устной речи.

В наст. время общепринято, что для созд машиночит-х фонетич.корпусов или транскрипц.на основе орфограф. представл звуков речи с доп. знаками, передающими (при необх) просодич, паралингв и др особенности произношения.

В мире сущ.много фонет. корпусов текстов, к. широко исп. для:

1) сопоставит. изуч. устн. и письм. формы яз.

2) для изучения грам. и лекс. особенностей уст. речи.

3) для исследования фонетич. особенностей диалектов

4) для построения частот. списков фонем и их соч-й

5) для созд. комп.сист исп.с целью распозн симв устной речи.

Напр,в США созд.корпус устн.р,сост.из 255 зап психоаналитич. сеансов (9 городов) Герм. - зап радиопер (222 тхт)

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 1310 11 12 13 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
07.03.201686.32 Кб51ОГЛАВЛЕНИЕ 2..docx
#
18.03.2015251.45 Кб135ОДАРЕННОСТЬ.docx
#
01.05.2025299.52 Кб0Ознакомительная практика (лингвисти. обеспечени...doc
#
18.03.2015147.97 Кб12ознакомительная практика послед вариант .doc
#
18.03.2015149.5 Кб23ознакомительная практика.doc
#
01.05.2025102.42 Кб0ОИТ шпоры.docx
#
07.09.201941.05 Кб21оккупационный режим.docx
#
01.05.2025123.39 Кб0Окончат. вариант программы ГОСов.doc
#
18.03.201555.31 Кб84олигофренопедагогика.docx
#
18.03.201515.15 Кб18олигофренопедагогика1.docx
#
01.05.20251.47 Mб0Олимпиада по истории 11 кл..doc