
- •Министерство образования Российской Федерации Казанский государственный технический университет им. А.Н.Туполева
- •Методы извлечения знаний
- •Текст – вербализированное представление модели мира автора на ЕЯ
- •Влюбом тексте можно выделить:
- •Этапы восприятия текста
- •Приобретение знаний
- •Проблемы автоматического распознавания текста
- •Задача классификации
- •OCR-системы
- •OCR-системы
- •OCR-системы
- •Принципы OCR
- •Схема автоматического распознавания символа
- •Схема автоматического распознавания символа
- •Схема автоматического распознавания символа
- •Классификаторы
- •Схема работы FineReader
- •OСR-cистема Cognitive Forms
- •Синтаксический анализ
- •«Текст- Смысл»
- •Уровни интерпретации текстов
- •Синтаксический анализ
- •Морфологический анализ
- •Синтаксический анализ
- •Синтаксический анализ
- •Неоднозначность результатов синтаксического анализа
- •Семантический анализ
- •Примеры ЛФ
- •Тезаурусный метод
- •Формирование смысла
- •Уровни понимания смысла текста
- •Система автоматизированного восприятия смысла текста
- •Можно считать, что система понимает текст, если она может:

Уровни интерпретации текстов
Уровни интерпретации |
Возможности системы |
||||||
|
|
|
|
|
|
|
|
|
|
Синтаксический |
|
|
- |
Понимание структуры |
|
|
|
|
|
|
|
|
предложений |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- |
Понимание смысла; |
|
|
|
|
|
|
||
|
|
Семантический |
|
|
|
представление ситуаций |
|
|
|
|
|
|
|
- |
в соответствии с текстом |
|
|
|
|
|
|
||
|
|
|
|
|
Понимание в контексте. |
||
|
|
|
|
|
|
||
|
|
Прагматический |
|||||
. |
|
|
|
|
|
|
Возможность решать задачи |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
Синтаксический анализ
Задача синтаксического анализа - выявление связей между элементами,
из которых состоит предложение.
Результат синтаксического анализа - дерево синтаксического разбора:

Морфологический анализ
с использованием словаря |
с использованием |
основ, таблиц окончаний, |
словаря словоформ. |
флективных классов, … |
|
Лексемы |
МА |
Характеристики лексем |
Лексемы (лексические единицы) - элементы, из которых состоит предложение

Синтаксический анализ
Построение дерева составляющих

Синтаксический анализ
Построение дерева подчинения

Неоднозначность результатов синтаксического анализа
Веселые беззаботные студенты из Казани приехали в Москву
Семантический анализ
Семантический анализ – совокупность операций представления смысла текста с помощью некоторого формализованного языка.
Лексические функции (ЛФ)
1.Часто встречаются в тексте
2.Общее число выражений ЛФ очень велико
3.В каждой точке текста конкретное выражение ЛФ зависит от ключевого слова

Примеры ЛФ
Ключевое слово |
Изменение |
Разгромить |
Любить |
Служить |
Выражение ЛФ |
Коренное |
Наголову |
Сильно |
Беззаветно |
|
|
|
Страстно |
Безумно |
|
|
|
|
|
Ключевое слово |
Приглащение |
Барьер |
Мечта |
Приговор |
Выражение ЛФ |
Принять |
Преодолеть |
Достичь |
Приводить |
|
|
|
|
в исполнение |
Ключевые слова - «опорные» точки, по которым текст кодируется при запоминании

Тезаурусный метод
|
Список слов и |
Алфавитный словарь |
ТЕЗАУРУС |
устойчивых слово- |
где для каждого слова |
|
сочетаний,сгруппи- |
указаны рубрики |
|
рованы по смыслу |
|
|
|
|
Семантические отношения:
R1(X,Y) – слова X и,Y входят в одну рубрику R2(X,Y) - слово X, входит в рубрику Y

Формирование смысла
Уровень синтаксических |
Уровень глубинных |
конструкций |
структур |
ПОНИМАНИЕ
ТЕКСТ |
|
«ВТОРОЙ ТЕКСТ» |
|
Ключевые слова - «опорные» точки, по которым текст кодируется при запоминании и (кодируется)