Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

10545

.pdf
Скачиваний:
2
Добавлен:
25.11.2023
Размер:
6.75 Mб
Скачать

Виды систем

Система Диалинг–AOT;

Система TreeTagger;

Система Pymorphy2;

Система Snowball;

Система MyStem.

Виды систем

1.Система Диалинг–AOT

включает в себя практически все этапы автоматического анализа текстов на ЕЯ, в том числе и морфологический;

лексической основой служит словарь Зализняка;

включая нахождение леммы и морфологических характеристик словоформы, а также синтез словоформ.

16

Виды систем

2.Система TreeTagger

система для определения частей речи слов с возможностью настройки на любой естественный язык при наличии словаря и размеченного корпуса;

позволяет определять части речи слов и другие морфологические характеристики, а также их нормальную форму;

базируется на словарной морфологии и использует словарь английского языка из проекта Penn TreeBank.

17

Виды систем

3.Система Pymorphy2

морфологический процессор с открытым исходным кодом, предоставляет все функции полного морфологического анализа и синтеза словоформ;

базируется на словарной морфологии и использует словарные данные проекта OpenCorpora;

в процессе морфологического синтеза, по исходной словоформе и тегам выполняется поиск нормальной формы слова, а затем перебор всех возможных пар в найденной лексеме, пока не будет найдена пара с заданными морфологическими тегами.

18

Виды систем

4.Система Snowball

использует систему суффиксов и окончаний для предсказания части речи и грамматических параметров;

реализовывается на языке программирования в виде большого количества условных операторов, анализирующих самый длинный постфикс и его контекст.

19

Виды систем

5.Система MyStem

морфологический анализатор, разработанный компанией Яндекс;

базируется на словаре НКРЯ;

производит разрешение морфологической омонимии и делает разбор несловарных словоформ.

20

Сравнение систем

Система

AOT

MyStem

TreeTagger

Pymorphy2

Открытые

 

нет

нет

 

исходные

да

да

коды

 

 

 

 

 

 

 

 

 

Скорость слов

60-90 тыс.

100-120 тыс.

20-25 тыс.

80-100 тыс.

в секунду

 

 

 

 

 

 

 

 

 

Подключение

нет

да

да

нет

словарей

 

 

 

 

 

 

 

 

 

Объем

 

 

 

 

словаря,

160

>250

210

250

тыс.слов

"Таблица 1 - Характеристики морфологических процессоров"

21

Сложность ЕЯ

предсинтаксис - сегментация текста на предложения;

синтаксический анализ предложений;

семантический и прагматический анализ.

22

Формализмы для предоставления семантики

формулы исчисления предикатов, выражающие свойства, состояния, процессы, действия и отношения;

семантические сети — размеченные графы, в которых вершины соответствуют понятиям, а дуги — отношениям между ними.

23

Особенности именно моделей КЛ

формальность и, в конечном счете, алгоритмизируемость;

функциональность (воспроизведение функций языка как «черного ящика», без построения точной модели синтеза и анализа речи человеком);

опора на лингвистические ресурсы; ∙ экспериментальная обоснованность, предполагающая тестирование модели на разных текстах.

24

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]