Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

10545

.pdf
Скачиваний:
2
Добавлен:
25.11.2023
Размер:
6.75 Mб
Скачать

Сложность при обработке текстов

полисемия — наличие у одной единицы языка нескольких связанных между собой значений;

синонимия — полное или частичное совпадение значений разных единиц;

омонимия — совпадение по форме двух разных по смыслу единиц (в отличие от полисемии нет смысловой связи между совпавшими по форме единицами).

25

Сложность при обработке текстов

Виды омонимии

лексическая омонимия означает одинаково звучащие и пишущиеся слова, не имеющие общих элементов смысла;

морфологическая омонимия — совпадение форм одного

и того же;

лексико-морфологическая омонимия возникает при совпадении словоформ двух разных лексем;

синтаксическая омонимия означает неоднозначность синтаксической структуры, что приводит к нескольким интерпретациям.

26

Сложность при обработке текстов

Классы омонимии

неоднозначные по параметрам — в анализе присутствуют словоформы с различными множествами грамматических параметров, но совпадающей леммой и частью речи;

неоднозначные по части речи — в анализе присутствуют словоформы, совпадающие по лемме, но отличающиеся по части речи. Так как части речи не совпадают, то наборы параметров у словоформ также будут отличаться. В связи с этим сравнение параметров проводиться не может.

27

Сложность при обработке текстов

Классы омонимии

неоднозначные по лемме — в анализе присутствуют словоформы, отличающиеся по лемме, но имеющие одинаковую часть речи. Здесь параметры могут как совпадать, так и отличаться;

неоднозначные по части речи и лемме — в анализе присутствуют словоформы, отличающиеся как по лемме, так и по части речи. Сравнение параметров здесь также

проводиться не может.

28

Подходы для создания лингвистических

процессов

основанный на правилах (rulebased);

инженерный, и основанный на машинном обучении

(machine learning).

29

Признаковой модели

BOW (bag of words — мешок слов);

статистическая языковая модель (Language Model).

30

Архитектура систем NLP

блок анализа речевого сообщения пользователя;

блок интерпретации сообщения;

блок порождения смысла ответа;

блок синтеза поверхностной структуры высказывания;

диалоговый компонент.

31

Архитектура систем NLP

Блок анализа речевого сообщения пользователя

определение информации, которую следует передать пользователю;

предполагаемое членение информации на «порции», соответствующие предложению;

определение последовательности «порций» смысла;

построение семантического представления отдельных предложений.

32

Архитектура систем NLP

Блок синтеза поверхностной структуры высказывания

упаковка семантического представления высказывания в синтаксические структуры предложения;

здесь играют существенную роль категории коммуникативной организации смысла высказывания — тема, рема, данное, новое.

33

Архитектура систем NLP

Задачи обработки текстов

информационный поиск;

извлечение информации;

вопросно-ответные системы;

диалоговые системы;

машинный перевод;

классификация и кластеризация.

34

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]