- •I часть. «Прикладная и компьютерная лингвистика»
- •Язык и теория знаков. Семиотика (предмет, объект, методы, задачи).
- •Структурная и Математическая лингвистика. Моделирование в лингвистике. Понятие лингвистической модели. Основные требования к модели. Понятие формализации.
- •Аналитический вид
- •Синтетический вид
- •Языки и модели представления знаний и семантики (семантические сети, фреймы, логика предикатов, продукции, сценарии и др.).
- •Лингвистические модели (исследовательские, модели анализа и синтеза, порождающие). Задачи Теории формальных языков. Иерархия Хомского.
- •Иерархия Хомского:
- •Компьютерные программы поддержки лексикографических работ
- •Новые разработки в лексикографии
- •Основные понятия
- •Типы корпусов
- •Основные требования к корпусам и основная задача
- •Опыт разработки корпусов текстов
- •Технологии анализа и синтеза естественного языка. Области использования. Уровневый анализ ея, начиная с технологий ocr/icr и т.Д.
- •Морфологический анализ. Виды ма. Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.). Лексико-грамматический анализ и разметка (pos-tagging). Области применения.
- •Синтаксический анализ, задачи вывода и разбора (формальные грамматики, модели составляющих и зависимостей, нисходящий и восходящий парсинг).
- •Формальные системы, используемые в автоматизированных и синтаксических анализах.
- •3 Основных способа представления синтаксической структуры предложения.
- •Дерево вывода.
- •Стилистика. Прикладной характер стилистических исследований. Стилистические средства языка. Функциональные стили речи. Основные особенности.
- •II) Некоторые понятия звуковых технологий
- •Синтез речи – задачи и принцип работы систем. Методы синтеза речи, способы моделирования человеческой речи, типы синтезаторов речи. Системы синтеза текст-речь.
- •II)Классификация программ call.
- •III)Дистанционное обучение ( Distant Learning)
- •3 Основных компонента в www:
- •2.2 Гипертекстовая технология
- •Как указывать ключевые слова?
- •Социолингвистика
- •Информационный язык
- •Прямой поиск
- •Инвертированный файл
- •Область технической коммуникации как новое направление прикладной лингвистики. Компетенции разработчика технической документации. Стандартизация документов.
- •Прикладная и теоретическая лингвистика – проблемы взаимовлияния.
Лингвистические модели (исследовательские, модели анализа и синтеза, порождающие). Задачи Теории формальных языков. Иерархия Хомского.
Лингвистические модели:
Моделью анализа называется конечное число правил, способных проанализировать бесконечное число предложений данного языка. Синтаксические аналитические модели получают на «входе» текст, а на «выходе» выдают для каждого предложения запись его синтаксической структуры. Семантические аналитические модели получают на «входе» тот же материал, а на «выходе» выдают смысловую запись (изображение смысла) каждого предложения на специальном семантическом языке.
Моделью синтеза называется конечное число правил, способных построить бесконечно большое число правильных предложений. Синтаксические синтетические модели используют в качестве исходной информации запись синтаксической структуры предложений, а на выходе выдают правильные предложения данного языка. Семантические синтетические модели получают на входе смысловую запись некоторого предложения на специальном семантическом языке и выдают на выходе множество предложений естественного языка, синонимичных данному предложению.
Помимо моделей анализа и синтеза, существуют еще так называемые порождающие модели, в некотором смысле промежуточные между моделями анализа и синтеза. Порождающей моделью называется устройство, содержащее алфавит символов и конечное число правил образования (и преобразования) выражений из элементов этого алфавита, способное построить бесконечное множество правильных предложений данного языка и приписать каждому из них некоторую структурную характеристику.
Исследовательские модели можно подразделить на три класса в зависимости от того, какая информация используется в них в качестве исходной.
В моделях первого класса в качестве исходной информации используется только текст, и все сведения о системе, т.е. языке, порождающем этот текст, извлекаются исключительно из текстовых данных. Это классические дешифровочные модели.
В моделях второго класса считается заданным не только текст, но и множество правильных фраз данного языка.
В моделях третьего класса считаются заданными не только текст и множество правильных фраз, но и множество семантических инвариантов. Их смысл сводится к тому, чтобы исследовать какое-либо лингвистическое явление на базе текстов, в результате получается, например, словарь или какая-либо грамматика или ее правила, или же результатом будет описание какого-либо лингвистического явления. Например, в переводе - описание какой-либо трансформации на базе трансформационной модели перевода.
Исследовательские модели сейчас активно разрабатываются в корпусной лингвистике, когда исследуется какое-либо множество текстов и, например, строится модель словарной статьи для включения ее в словарь.
Рассмотрим эти модели на схеме:
-
Признаки
Тип модели
Что известно лингвисту
ВХОД - Характер исходной информации
ВЫХОД-Характер конечной информации
Цель
Исследовательские
Текст (и множество правильных фраз)
Текст
Грамматика и/или словарь
Смоделировать деятельность лингвиста
Аналитические
Грамматика и словарь
Текст
Изображение структуры текста
Смоделировать понимание текста
Синтетические
Грамматика и словарь
Изображение структуры текста
Текст
Смоделировать производство -генерацию текста
Порождающие
Грамматика и словарь
Алфавит символов и правила образования и преобразования фраз
Множество правильных фраз и изображение их структуры
Смоделировать умение отличать правильное от неправильного в языке
Основные задачи Теории формальных языков
Использование математических средств в описании искусственных языков и их организации связано с двумя разными практическими задачами: • заключается в составлении некоторого количества формальных правил, используя которые можно построить любую правильную фразу или конструкцию данного языка, а точнее построить любую цепочку символов, входящих в изучаемый язык, представленного как множество таких цепочек
• обратная первой, заключается в том, что следующая разработка правила позволяет установить, является ли произвольная цепочка правильной конструкцией или фразой этого языка.
Эти задачи взаимосвязаны, но для их применения используются разные математические средства и метаязыки. Для задания правил создания правильных фраз используется аппарат порождающей грамматики, а для задания способов образования цепочек символов и распознавания правильных конструкций применяется аппарат распознающих автоматов.