Виды систем
1.Система Диалинг–AOT
•включает в себя практически все этапы автоматического анализа текстов на ЕЯ, в том числе и морфологический;
•лексической основой служит словарь Зализняка;
•включая нахождение леммы и морфологических характеристик словоформы, а также синтез словоформ.
Виды систем
2.Система TreeTagger
•система для определения частей речи слов с возможностью настройки на любой естественный язык при наличии словаря и размеченного корпуса;
•позволяет определять части речи слов и другие морфологические характеристики, а также их нормальную форму;
•базируется на словарной морфологии и использует словарь английского языка из проекта Penn TreeBank.
Виды систем
3.Система Pymorphy2
•морфологический процессор с открытым исходным кодом, предоставляет все функции полного морфологического анализа и синтеза словоформ;
•базируется на словарной морфологии и использует словарные данные проекта OpenCorpora;
•в процессе морфологического синтеза, по исходной словоформе и тегам выполняется поиск нормальной формы слова, а затем перебор всех возможных пар в найденной лексеме, пока не будет найдена пара с заданными морфологическими тегами.
Виды систем
4.Система Snowball
•использует систему суффиксов и окончаний для предсказания части речи и грамматических параметров;
•реализовывается на языке программирования в виде большого количества условных операторов, анализирующих самый длинный постфикс и его контекст.
Виды систем
5.Система MyStem
•морфологический анализатор, разработанный компанией Яндекс;
•базируется на словаре НКРЯ;
•производит разрешение морфологической омонимии и делает разбор несловарных словоформ.
Сравнение систем
|
Система |
AOT |
MyStem |
TreeTagger |
Pymorphy2 |
|
Открытые |
|
нет |
нет |
|
|
исходные |
да |
да |
|
коды |
|
|
|
|
|
|
|
|
|
|
|
Скорость слов |
60-90 тыс. |
100-120 тыс. |
20-25 тыс. |
80-100 тыс. |
|
в секунду |
|
|
|
|
|
|
|
|
|
|
|
|
Подключение |
нет |
да |
да |
нет |
|
словарей |
|
|
|
|
|
|
|
|
|
|
|
|
Объем |
|
|
|
|
|
словаря, |
160 |
>250 |
210 |
250 |
тыс.слов
"Таблица 1 - Характеристики морфологических процессоров"
Сложность ЕЯ
•предсинтаксис - сегментация текста на предложения;
•синтаксический анализ предложений;
•семантический и прагматический анализ.
Формализмы для предоставления семантики
•формулы исчисления предикатов, выражающие свойства, состояния, процессы, действия и отношения;
•семантические сети — размеченные графы, в которых вершины соответствуют понятиям, а дуги — отношениям между ними.
Особенности именно моделей КЛ
•формальность и, в конечном счете, алгоритмизируемость;
•функциональность (воспроизведение функций языка как «черного ящика», без построения точной модели синтеза и анализа речи человеком);
•опора на лингвистические ресурсы; ∙ экспериментальная обоснованность, предполагающая тестирование модели на разных текстах.