Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
shpory.docx
Скачиваний:
21
Добавлен:
08.06.2015
Размер:
155.78 Кб
Скачать

Вопрос 17.

Системы автоматического чтения текстов

Для быстрого и качественного ввода текста в ПК используется сканер, работающий по принципу фотоаппарата. Чтобы «понять» текст, то бишь перевести графику в цифровой вид, нужна система автоматического распознавания текста.

OCR (OpticalCharesterRecognition) – компьютерная программа, позволяющая преобразовывать текст бумажного носителя в электронный текстовый файл.

Основные принципы работы системы:

  1. Целостность (объект описывается как целое с помощью значимых элементов и отношений между ними);

  2. Целенаправленность (распознавание строится как процесс выдвижения и целенаправленной проверки гипотез);

  3. Адаптивность (способность компьютерной системы к самообучению).

Этапы работы системы FineReader:

  1. Сканирование (получение графического образа документа;

  2. Распознавание текста страницы:

    1. Анализ графического макета страницы (выделение областей для распознавания, выделение в тексте строк и отдельных символов);

    2. Распознавание каждого символа на основе различных алгоритмов распознавания;

  3. Проверка орфографии;

  4. Сохранение.

Алгоритмы распознавания (классификаторы):

  1. Шаблонные (шрифтозависимые) – растровое изображение накладывается на шаблон, содержащийся в базе данных, наиболее подходящим является тот, у которого наименьшее количество точек отличается.

  2. Шрифтонезависимые:

    1. Признаковые (позволяют анализировать не всё изображение знака, а лишь некоторые признаки, вычисляется по формулам, не отвечает принципу целостности);

    2. Структурные (содержат информацию не о точечном изображении символа, а о правилах начертания (или структуры).Структурными элементами являются составляющие символ линии, однако данный метод чувствителен к дефектам изображения).

В FineReader работают все алгоритмы, экспертная система, встроенная внутрь ядра, сама выбирает нужный алгоритм.

Возможности OCR:

  1. Во время сканирования система автоматически подбирает яркость, фрагментирует каждую страницу, распознает символы текста;

  2. Позволяет распознавать печатные символы (200 языков), рукопечатные и рукописные тексты.

  3. Способность самообучаться и распознавать плохо пропечатанные символы.

  4. Распознавание изображения, полученного с помощью цифрового фотоаппарата, а также файлы в формате PDF.

Развитие OCR идёт в направлении повышения точности распознавания текстов низкого качества, распознавание рукописного текста, выделение текстовой информации на фоне шумов, а также интеграций OCR-систем с различными программами обработки информации.

Вопрос 18.

Системы автоматического аннотирования и реферирования текста

Реферат – связный текст, кратко выражающий не только центральную тему документа, но и цель, методы, основные результаты описанного исследования или разработки.

Аннотация – краткое изложение содержания документа с общим представлением о его теме.

Машинный реферат – последовательность предложений исходного текста либо таблица, в ячейках которой ключевые слова или словосочетания (первый машинный реферат был сделан в 1958 году).

Этапы построения реферата человеком:

  1. 1)Подготовительный (чтение текста и осмысление документа в целом);

  2. Аналитический (референт выделяет основные смысловые единицы (предложения, слова, словосочетания), строит план реферата);

  3. Этап непосредственного построения реферата (выделенные ранее единицы располагаются в единый вторичный текст в соответствии с планом).

В качестве смысловых единиц реферата могут быть:

  1. Полное (без изменений) ключевое предложение исходного текста;

  2. Перефразированное ключевое предложение;

  3. Предложение из ключевых слов и словосочетаний;

  4. Предложение, обобщающее несколько предложений исходного текста.

Смысловые единицы аннотации:

  1. Ключевые слова или словосочетания исходного текста с предшествующими им специальными словами – реляторами – заранее заготовленная фраза («тема состоит в том, что» и проч.);

  2. Специальные предложения исходного текста, содержащие элементы («рассматривается важная проблема» и проч.)

ПК должен уметь:

  1. Находить в тексте ключевые слова, словосочетания, предложения;

  2. Находить в тексте менее значимые единицы;

  3. Составлять из текстовых единиц смысловые единицы реферата\аннотации.

Методы автоматического реферирования:

  1. Статистический:

  2. Позиционные: основным критерием этих методов является место или позиция предложения в тексте:

    1. Метод заглавия (основное содержание текста выражается текстом заголовка) – составляет словарь ключевых слов на основе заголовков\подзаголовков;

    2. Метод локализации (работает на текстах узкой тематики) – идея в том, что в таких текстах предложения о цели и результатах занимают фиксированное место.

  3. Логико-семантические: исследуют структуру и семантику текста.

    1. Ключевое предложение – предложение с наибольшей функцией весомости влияют различные факторы:

    2. Связь с левым и правым окружением;

    3. Наличие в предложении семантически значимых слов;

    4. Выделение текста шрифтом и т.д.

Каждый метод имеет достоинства и недостатки, используются комбинированно.

Данные методы относятся к направлению квазиреферирования, основаны на выделении из текстов наиболее информативных предложений, передающих основной смысл документа. Текст, полученный путём соединения отрывочных фрагментов, лишён гладкости.

Сегодня появились методы второго направления на выделение из текстов наиболее информативной информации и создания с помощью неё новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Данные системы работают сразу с несколькими источниками, а также способны работать с видео.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]