
- •Министерство образования Российской Федерации Казанский государственный технический университет им. А.Н.Туполева
- •Методы извлечения знаний
- •Текст – вербализированное представление модели мира автора на ЕЯ
- •Влюбом тексте можно выделить:
- •Этапы восприятия текста
- •Приобретение знаний
- •Проблемы автоматического распознавания текста
- •Задача классификации
- •OCR-системы
- •OCR-системы
- •OCR-системы
- •Принципы OCR
- •Схема автоматического распознавания символа
- •Схема автоматического распознавания символа
- •Схема автоматического распознавания символа
- •Классификаторы
- •Схема работы FineReader
- •OСR-cистема Cognitive Forms
- •Синтаксический анализ
- •«Текст- Смысл»
- •Уровни интерпретации текстов
- •Синтаксический анализ
- •Морфологический анализ
- •Синтаксический анализ
- •Синтаксический анализ
- •Неоднозначность результатов синтаксического анализа
- •Семантический анализ
- •Примеры ЛФ
- •Тезаурусный метод
- •Формирование смысла
- •Уровни понимания смысла текста
- •Система автоматизированного восприятия смысла текста
- •Можно считать, что система понимает текст, если она может:
Министерство образования Российской Федерации Казанский государственный технический университет им. А.Н.Туполева
Кафедра АСОИУ
Интеллектуальные информационные системы
ЛЕКЦИЯ № 5
Текстологические методы приобретения знаний
2011

Методы извлечения знаний
Коммуникативные |
Текстологические |
DM&KM |
методы |
методы |
|

Текст – вербализированное представление модели мира автора на ЕЯ
Влюбом тексте можно выделить:
•a). Наличие некоторой системы понятий,
соответственно предметной области.
• b). Некий первичный материал в виде результатов собственных наблюдений.
• c). Собственные взгляды автора
по излагаемому вопросу.
• d). Кроме личных мыслей используются заимствования из других источников.
• e). Общие места.
( a, b, c, d, e )

Этапы восприятия текста
1. Чтение. Восприятие текста, как последовательности синтаксических конструкций.
2. Понимание смысла. Интерпретация
содержания синтаксических конструкций.
Результат понимания - формирование модели мира в сознании читателя

Приобретение знаний
Аналитик
Программист
Источники
знаний |
|
|
|
БЗ |
|
|
|
|
|
|
|
|
|
|
|
|
Средства |
|
|
|
|
автоматизации |
|
|
Источники знаний - тексты
Проблемы автоматического распознавания текста
•Шрифтовое и размерное разнообразие
•Дефекты изображения
•Близость изображений символов (контекст)
•Посторонние включения в изображение
•Сочетание нескольких языков
Автоматическое чтение -
частный случай задачи автоматического восприятия зрительных образов
Задача классификации
Имеется N классов объектов:
Ώ1, Ώ2, . . . , ΏN
О - предъявляемый для распознавания объект.
Задача. Определить i : О Ώi

OCR-системы
• OCR - Optical Character Recognition
Текст

OCR-системы
• OCR - Optical Character Recognition
Текст Сканер Графическое изображение
Шейп