- •I часть. «Прикладная и компьютерная лингвистика»
- •Язык и теория знаков. Семиотика (предмет, объект, методы, задачи).
- •Структурная и Математическая лингвистика. Моделирование в лингвистике. Понятие лингвистической модели. Основные требования к модели. Понятие формализации.
- •Аналитический вид
- •Синтетический вид
- •Языки и модели представления знаний и семантики (семантические сети, фреймы, логика предикатов, продукции, сценарии и др.).
- •Лингвистические модели (исследовательские, модели анализа и синтеза, порождающие). Задачи Теории формальных языков. Иерархия Хомского.
- •Иерархия Хомского:
- •Компьютерные программы поддержки лексикографических работ
- •Новые разработки в лексикографии
- •Основные понятия
- •Типы корпусов
- •Основные требования к корпусам и основная задача
- •Опыт разработки корпусов текстов
- •Технологии анализа и синтеза естественного языка. Области использования. Уровневый анализ ея, начиная с технологий ocr/icr и т.Д.
- •Морфологический анализ. Виды ма. Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.). Лексико-грамматический анализ и разметка (pos-tagging). Области применения.
- •Синтаксический анализ, задачи вывода и разбора (формальные грамматики, модели составляющих и зависимостей, нисходящий и восходящий парсинг).
- •Формальные системы, используемые в автоматизированных и синтаксических анализах.
- •3 Основных способа представления синтаксической структуры предложения.
- •Дерево вывода.
- •Стилистика. Прикладной характер стилистических исследований. Стилистические средства языка. Функциональные стили речи. Основные особенности.
- •II) Некоторые понятия звуковых технологий
- •Синтез речи – задачи и принцип работы систем. Методы синтеза речи, способы моделирования человеческой речи, типы синтезаторов речи. Системы синтеза текст-речь.
- •II)Классификация программ call.
- •III)Дистанционное обучение ( Distant Learning)
- •3 Основных компонента в www:
- •2.2 Гипертекстовая технология
- •Как указывать ключевые слова?
- •Социолингвистика
- •Информационный язык
- •Прямой поиск
- •Инвертированный файл
- •Область технической коммуникации как новое направление прикладной лингвистики. Компетенции разработчика технической документации. Стандартизация документов.
- •Прикладная и теоретическая лингвистика – проблемы взаимовлияния.
Компьютерные программы поддержки лексикографических работ
Традиционная форма фиксации словарных данных - это каталожная карточка, где описывается слово, пример словоупотребления, источник примера, синтаксическая информация и дополнительная информация, исходя из целей создания словаря. Каталожные карточки собираются в картотеки, а из картотек уже формируются словари различного рода.
Вместо обычной картотеки в компьютерных средах используются записи в базы данных. Лексикографические базы данных фиксируют первичный материал, который используется для написания словарных статей словаря. Лексикографические базы данных не существуют, но традиционные стандартные пакеты для баз данных (MS Access, Paradox, D-Base) подходят для такой работы.
Одним из этапов лексикографической работы является поиск примеров на словоупотреблениеи формирование картотеки к примерам на каждое слово. Обычно это делают с помощью макросов и специальных программ конкордансов.
Примеры словарей:
Частотный словарь – используется при выборке частотной лексики, например, при помощи иностранного языка в машинном переводе для подбора ближайшего значения слова, в лексико-грамматическом анализе
-
№
word
статистика встречаемости
1
value
5060
2
temperature
4200
3
field
4000
Делается на базе текстов одно тематики, могут включаться все формы (сущ., нар.)
Словарь-тезаурус – есть несколько определений:
Это словарь, в котором полно представлены все слова языка, обычно идеографический словарь, где показаны все семантические отношения между лексическими единицами (известный словарь такого типа – это словарь P.Roget)
Тезаурус может быть информационно-поисковым, одноязычным и в пределах словарной статьи такого словаря можно найти указания на синонимы, вышестоящие термины и ассоциативные термины
Словарная статья
-
слово Linguistics
с(синоним) – языкознание
в(вышестоящий термин) – наука
н(виды слова) – компьютерная/ прикладная лингвистика
а(ассоциативные термины) - язык
Новые разработки в лексикографии
Семантические словари – в настоящее время существуют сетевые версии, объединенные между странами. Это уже лексико-грамматические ресурсы. Широко известным здесь является проект «WordNet», который стал разрабатываться в США в Принстонском университете в рамках лексико-семантического исследования под руководством Миллера. «WordNet» - это лексико-семантическая база данных. Основным элементом здесь являются наборы синонимов в различных языках, которые называются синсеты (sinset).
Кроме того в нашей стране существовали похожие разработки. Их ввел известный российский лингвист Ю.Апресян в рамках известных моделей языка «Смысл-текст». Эти технологии обеспечивали полное лингвистическое портретирование слов.
Терминография
Терминография – это наука о составлении словарей терминов. Развивается автоматическая терминография.
Современные технологии помогают разрабатывать терминологические банки данных (ТБД)
ТБД – это автоматизированная система представления терминологической лексики в системах человеко-машинного общения. Это единая служба, описывающая все сведения о термине с удобным доступом.
Типы ТБД:
Переводческие – ориентированы на перевод научно-технической терминологии
Информационно-нормативные – определяют стандарты использования терминологии в своей стране
Например, одна из известных ТБД – это переводческая в фирме “Simens” на 8 языках мира, включает в себя несколько миллионов терминов.
Любая ТБД состоит из ряда массивов-терминов, которые называются подфондами.
Подфонды:
межотраслевые
отраслевые
общенаучные
общетехнические
Используются для перевода, издания терминологических словарей, для справочно-информационных служб специалистов.
Корпусная лингвистика (Corpus Linguistics и Corpora). Основные задачи корпусной лингвистики и требования. Традиционная и компьютерная корпусная лингвистика. Основные понятия корпусной лингвистики. Типы корпусов. Опыт разработки корпусов текстов (для английского, немецкого, русского языка). Компьютерная поддержка корпусной лингвистики. Конкордансы.
Корпусная лингвистика
(Corpus Linguistics)
Лингвистическое исследование как научный метод опирается на анализ языкового материала, т. е. чем больше такого материала, тем выше достоверность выводов.
Традиционно для лингвистического исследования использовались корпусы текстов (Corpora-Corpus). Традиционные способы сбора и хранения корпусов были трудоемкими (корпусы формировались в виде хрестоматий, сборников текстов, архивов).
В настоящее время корпуса текстов в основном представлены в электронном формате, у них есть свои форматы, стандарты представления. Большинство корпусов открыты. Современный подход корпусной лингвистике развивается в России с 2000 г.