- •I часть. «Прикладная и компьютерная лингвистика»
- •Язык и теория знаков. Семиотика (предмет, объект, методы, задачи).
- •Структурная и Математическая лингвистика. Моделирование в лингвистике. Понятие лингвистической модели. Основные требования к модели. Понятие формализации.
- •Аналитический вид
- •Синтетический вид
- •Языки и модели представления знаний и семантики (семантические сети, фреймы, логика предикатов, продукции, сценарии и др.).
- •Лингвистические модели (исследовательские, модели анализа и синтеза, порождающие). Задачи Теории формальных языков. Иерархия Хомского.
- •Иерархия Хомского:
- •Компьютерные программы поддержки лексикографических работ
- •Новые разработки в лексикографии
- •Основные понятия
- •Типы корпусов
- •Основные требования к корпусам и основная задача
- •Опыт разработки корпусов текстов
- •Технологии анализа и синтеза естественного языка. Области использования. Уровневый анализ ея, начиная с технологий ocr/icr и т.Д.
- •Морфологический анализ. Виды ма. Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.). Лексико-грамматический анализ и разметка (pos-tagging). Области применения.
- •Синтаксический анализ, задачи вывода и разбора (формальные грамматики, модели составляющих и зависимостей, нисходящий и восходящий парсинг).
- •Формальные системы, используемые в автоматизированных и синтаксических анализах.
- •3 Основных способа представления синтаксической структуры предложения.
- •Дерево вывода.
- •Стилистика. Прикладной характер стилистических исследований. Стилистические средства языка. Функциональные стили речи. Основные особенности.
- •II) Некоторые понятия звуковых технологий
- •Синтез речи – задачи и принцип работы систем. Методы синтеза речи, способы моделирования человеческой речи, типы синтезаторов речи. Системы синтеза текст-речь.
- •II)Классификация программ call.
- •III)Дистанционное обучение ( Distant Learning)
- •3 Основных компонента в www:
- •2.2 Гипертекстовая технология
- •Как указывать ключевые слова?
- •Социолингвистика
- •Информационный язык
- •Прямой поиск
- •Инвертированный файл
- •Область технической коммуникации как новое направление прикладной лингвистики. Компетенции разработчика технической документации. Стандартизация документов.
- •Прикладная и теоретическая лингвистика – проблемы взаимовлияния.
Морфологический анализ. Виды ма. Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.). Лексико-грамматический анализ и разметка (pos-tagging). Области применения.
Морфологический анализ
Если в традиционном языкознании под морфологией понимают только то, что относит к форме слова, то в системах АОТ морфологический анализ означает процедуру, в которой из формы или внешнего оформления слова в тексте можно получить сведения о разных уровнях языковой структуры. Таким образом понятие морфологического анализа было сформировано в прикладной лингвистике и широко использовалось в машинном переводе. Первый год работ по направлению машинного перевода было предложено большое количество алгоритмов морфологического анализа с наукой. На сегодняшний день эта задача является самой сложной, т.к существует большое количество хорошо работающих алгоритмов морфологического анализа для разных языков.
Таким образом, понятие морфологического анализа является понятием операционным, и если в традиционной лингвистике к нему относят только то, что характеризует формы слова и отвечает на вопрос «что классифицируется?», то в компьютерной лингвистике важно не что, а как получается та или иная информация из формы слова в тексте.
Морфологический анализ – это преобразование входного текста в его морфологическую структуру, при этом единицей морфологического анализа является словоформа, на который делится текст.
Морфологическая структура – это последовательность морфологических структур входящих в текст словоформ, причем эти элементы располагаются в том же порядке, что и соответствующие словоформы в тексте.
Морфологическая структура словоформы - это ее имя, или соответствующая лексема с набором ее грамматических характеристик.
К числу функций компьютерной морфологии относятся:
1.получение всех форм слова
2. постановка слова в заданную форму
3. получение грамматических характеристик словоформы.
Алгоритмы морфологического анализа.
В основу морфологического анализа положено разбиение всех слов на классы, определяющий характер изменения буквенного состава форм слова. Эти классы называют морфологическими, а изменения формы слова могут носить различный характер и может быть связанно как с изменением формы слова, так и с изменением его окончания и т.д. и является основным способом образования различной формы слова.
В работе морфологического анализа в системах АОТ выделяют несколько основных направлений:
Моделируют классификационную схему анализа путем разделения словоформы на основу и предположительное окончание с последующей проверкой совместимости окончания с основой.
Другое направление использует информацию, содержащуюся в конечном буквосочетании, и эта информация получается в результате предварительной статистической обработки словарей основ и флексий.
Создание универсальной математической модели морфологии в форме некоторой системы правил, позволяющих путем вычисления осуществить нормализацию словоформ и получение грамматической информации.
Виды МА
В связи с этим выделяют следующие виды морфологического анализа:
Морфологический анализ со словарями, который является основным и распространенным и используется для большинства языков.
морфологический анализ со слов словоформ. Так же является довольно распространенным и наиболее простой из всех видов.
Морфологический анализ метода логического умножения. Это понятие формальной морфологии, разработанной в 60-хх годах.
Морфологический анализ без словарей, но с помощью специальных таблиц аффиксов и особого списка слов, не имеющих грамматического значения. Этот вид анализа называется независимым, т.к. работа проводиться без словарей.
Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.)
Под лингвистическим обеспечением таких программ подразумевают специальные словари языковых единиц, и наиболее известными являются обратный словарь, а также морфологический словарь Зализняка. Кроме того в лингвистическое обеспечение также входит компьютерная модель морфологии естественного языка.
Обратный словарь.
Является наиболее известным, и он учитывает требования морфологического анализа и имеет специфическое представление слов, т.е. сначала идут слова, оканчивающиеся на 1- ую букву алфавита и т.д. При совпадении учитывает предпоследнюю.
Таким образом, расположение в алфавитном порядке, начиная с конца слова. При этом объединяются слова, относящиеся к одному словообразовательному типу, а так же сложные слова с одинаковой последней составляющей.
Обратные словари могут решать широкий круг задач и использоваться для машинного перевода, при определенных грамматических характеристиках слова, а так же при анализе словоформ флективных языков.
Морфологические словари.
К ним относят словари префиксов, аффиксов и основ. Одним из широко известных стал русский словарь русского ученого-лингвиста Зализняка.
Полиграфический вариант этого словаря состоит из:
Грамматические введения (120 стр.)
Сам словарь (740 стр.)
В первой его части рассматривается грамматика слова (склонение, спряжение и т.д.)
А во второй приведены слова, которым приписаны грамматические индексы, характерный тип словоизменения и схема образования словоформ. Слова упорядочены по окончанию словоформы, что удобно для грамматического словаря, т.к. слова со сходным грамматическим поведением располагаются компонентными группами.
Его так же активно используют для:
генерации на его основе всех словоформ данного слова.
создания формальной модели словоизменения
использования в исходной форме, но в электронном виде с доработкой алгоритмов, моделирующих работу с грамматическими сведениями первой части.
В связи с этим слова делятся на 2 класса:
неизмененные слова
измененные слова
Совокупность форм слова или словоформ образует парадигму, в каждой словоформе выделяют основу и флексию и с ними связаны определенные грамматические характеристики. Они включают в себя:
морфологический класс
парадигматический класс
чередование
исключение
Слово изменяемый признак определяет набор значений грамматических переменных следующих типов:
одушевленность
род
число
падеж
лицо
залог
возвратность
время
наклонение
степень
Эти типы значений имеют соответствующие числовые коды: значение «род» кодируется следующим образом: 1 – м.р., 2 – ж.р., 3- ср.р., 0 – непонятно.
Лексико-грамматический анализ в естественных языках
Он является промежуточным между морфологическими и синтаксическими анализами, так как готовят почву только для синтаксического анализа.
POS – part of speech (= tagging) тэгирация. = морфолого-синтаксическая разметка текста.
Задача ЛТА – автоматически распознать к какой части речи принадлежит слово в тексте. Данную задачу решают с помощью морфологической разметки текста, т.е. использует морфологический анализ и в основе лежат 2 основных алгоритма.
вероятно-статистический. Использует словарь синтаксических форм языка с соответствующими морфологическими классами, и базируются на информационной встречаемости всех возможных последующих грамматических классов.
основанный на продукциях (если,…. то).
Пример: если морфологические формы могут быть как глаголом, так и существительным, и перед ней стоит артикль, то это морфологическая форма существительного.
Оба подхода хороши и правильного анализа достигает 90 %. Вводят даже специальные стандарты, чтобы унифицировать систему автоматического анализа естественного языка.