
- •1. Опред понятия ит. Кр.Ист.Развит.Ит.Причины
- •2. Цель созд,осн.ЧертыИт.Прим.В лингв.И в обучении.
- •I. По отношению к окружающей среде
- •28. Базы данных.Субд.
- •4. Понят.Об инф.Процессах и информационных системах.
- •26. Автоматическое распознавание устной речи
- •5. Кр.Ист.Возникн/развитПк.Двоич.Система исчисления
- •12. Прикладн.Проги. Прикладн. Инструм. Средства
- •6. Функц.Узлы пк: устройства ввода информации.
- •3 Группы:
- •9. Функц.Узлы пк: устройства обработки информации
- •25. Общая стр-ра сист.Порождения письменного текста
- •8. Функциональные узлы пк: устр-ва хранения инф.
- •14. Основные ресурсы и услуги сети Интернет
- •13. Пон.Кс. Компон.Кс.Классиф. Кс по террит. Призн
- •10. Классиф.Комп.По lvl специализ,р-ру,совместимости.
- •24. Автопорождение письменного текста
- •15. Возм-ти совр. Компьютера. Перспективы развития ит
- •16. Моделир Общ.Принцпы реш.Лингв.Задач м-м моделир.
- •17. Назнач. И возм-ти сист. Автомат. Чтения текста.
- •30. Лир:осн.Сост: письм текст массивы, фонетич ресурсы
- •18. Аннот/реф:осн.Понят. М-ды автоаннот/реферирован.
- •22. Автоматич понимания письменного текста.
- •23. Типы автоматического поинмания текста
- •27. Синтез устной речи с помощью компьютера
- •29. Лир основные составляющие, письменный лексикон
17. Назнач. И возм-ти сист. Автомат. Чтения текста.
Для быстр.ввода текст.инф. в ПК исп.сканер.Чтобы перевести граф.изобр. в ткств ф,необход. сист автом.чтения текстов или OCR (optical character recognition)
OCR - прога,позв.преобраз.текст бум.носит.в электрон.файл.
Принципы работы OCR:
1. целостность(объект опис.как целое с пом.знач.элем.и отнош.м/у ними)
2. целенаправленность (распозн-е стр. как проц. выдвижения и целенаправл. проверки гипотез)
3. адаптивность (сп-ть комп. Сист. к самообучению)
Этапы работы системы Fine Reader:
1) сканирование - получение граф. образа документа
2) распознавание
а) анализ граф.макета стр.(выдел.обл.для распозн.)
б) распозн.кажд.симв.на основе различн.алгор. распозн.
3. проверка орфографии
4. сохранение
Алгоритмы распознавания (классификаторы)
1) шрифтозависимые (шаблонные) - растров.изображ. наклад.на шаблон,содерж.в бд,наиб.подход.явл.шаблон, у кот.наименьшее кол-во точек отлич. от исслед. изображения.
2) признаковые – распозн.подверг.не сам символ (оригинал), а некотор.его признаки, вычисл. по формулам.
Эти не отв.принц.целостн,ибо теряется существ. ч. инфы
3) структурные - содерж. инф-ю не о точечном изобр.симв, а о правилах начертания или структуре.
Стр.элем.явл. все сост-щие символ линии. Раб. с векторным изобр.Недостаток – чувствит. к дефектам изображения.
В Fine Reader работают все типы классификаторов.
Возможности системы:
1. во время сканир.автом.подбир.яркость,фрагментир. стр, распозн. символы, можно пров. орфографию.
2. позв.распозн.печат.симв(около 200 языков),рукопечатные, рукопис. (для КПК)
3. способность самообучаться и распозн. плохопропечат. символы и символы незнакомых языков.
4. распозн. изобр, полученные с помощью фотоаппаратов.
Развит.прог OCR идёт в напр.повыш.точности распозн.текстов низкого к-ва,рукопис.текста,выдел. екст.инф.на фоне шумов, интеграции OCR-систем с различн.прогами обраб. инфы.
30. Лир:осн.Сост: письм текст массивы, фонетич ресурсы
Письм.тхт.массивы – совт-ь тхтов, явл достат для обеспеч надёжн выводов (научн.) о яз, диалекте или ином подмн-ве яз
Созд таких корпусов - новое направл в лингв. Суть—достовер. данные о морфол,синт. и семант.стр-ре яз мб получены из достаточно большого массива текстов.
Корпусы текстов исп.:
1. в лексикологии(сост различн.сл-рей, выдел терминов, определения значения многознач. слов.)
2. в грамм(опред частоты употр грам.морфем, для выявл наиб употр-ых типов словосоч и предл,частоты употр классов слов)
3. в лингвистике(дифференц.типов тхт, созд конкордансов; при МП для созд.прав.стр-ры предл перевод. текста.
Как показ.рез-ты исп корпуса тхт, многие лингв.задачи с их пом не мб реш.Во многих яз нельзя устан прин-ть сл к тому или иному грам.классу, что не позв.опред.частоту употр.грам. классов сл, прав.стр-ру предл => употр-ть стр-ры, поэтому стали созд. тагированные корпусы текстов.
Сл т.корпуса получ.букв и цифр.индексы, к.обознач. их грам, лексич, семант структур. признаки.
Сущ. проги, к. произв.автомат.тегирование текста.
В послед.время стали созд.парал.тегир.корпусы тхт на 2 яз.
фонетические ресурсы (корпусы устной речи)
Глав.трудн-ть — необх.транскриб. устной речи.
В наст. время общепринято, что для созд машиночит-х фонетич.корпусов или транскрипц.на основе орфограф. представл звуков речи с доп. знаками, передающими (при необх) просодич, паралингв и др особенности произношения.
В мире сущ.много фонет. корпусов текстов, к. широко исп. для:
1) сопоставит. изуч. устн. и письм. формы яз.
2) для изучения грам. и лекс. особенностей уст. речи.
3) для исследования фонетич. особенностей диалектов
4) для построения частот. списков фонем и их соч-й
5) для созд. комп.сист исп.с целью распозн симв устной речи.
Напр,в США созд.корпус устн.р,сост.из 255 зап психоаналитич. сеансов (9 городов) Герм. - зап радиопер (222 тхт)