- •I часть. «Прикладная и компьютерная лингвистика»
- •Язык и теория знаков. Семиотика (предмет, объект, методы, задачи).
- •Структурная и Математическая лингвистика. Моделирование в лингвистике. Понятие лингвистической модели. Основные требования к модели. Понятие формализации.
- •Аналитический вид
- •Синтетический вид
- •Языки и модели представления знаний и семантики (семантические сети, фреймы, логика предикатов, продукции, сценарии и др.).
- •Лингвистические модели (исследовательские, модели анализа и синтеза, порождающие). Задачи Теории формальных языков. Иерархия Хомского.
- •Иерархия Хомского:
- •Компьютерные программы поддержки лексикографических работ
- •Новые разработки в лексикографии
- •Основные понятия
- •Типы корпусов
- •Основные требования к корпусам и основная задача
- •Опыт разработки корпусов текстов
- •Технологии анализа и синтеза естественного языка. Области использования. Уровневый анализ ея, начиная с технологий ocr/icr и т.Д.
- •Морфологический анализ. Виды ма. Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.). Лексико-грамматический анализ и разметка (pos-tagging). Области применения.
- •Синтаксический анализ, задачи вывода и разбора (формальные грамматики, модели составляющих и зависимостей, нисходящий и восходящий парсинг).
- •Формальные системы, используемые в автоматизированных и синтаксических анализах.
- •3 Основных способа представления синтаксической структуры предложения.
- •Дерево вывода.
- •Стилистика. Прикладной характер стилистических исследований. Стилистические средства языка. Функциональные стили речи. Основные особенности.
- •II) Некоторые понятия звуковых технологий
- •Синтез речи – задачи и принцип работы систем. Методы синтеза речи, способы моделирования человеческой речи, типы синтезаторов речи. Системы синтеза текст-речь.
- •II)Классификация программ call.
- •III)Дистанционное обучение ( Distant Learning)
- •3 Основных компонента в www:
- •2.2 Гипертекстовая технология
- •Как указывать ключевые слова?
- •Социолингвистика
- •Информационный язык
- •Прямой поиск
- •Инвертированный файл
- •Область технической коммуникации как новое направление прикладной лингвистики. Компетенции разработчика технической документации. Стандартизация документов.
- •Прикладная и теоретическая лингвистика – проблемы взаимовлияния.
Иерархия Хомского:
Грамматика типа 0
Грамматика типа1
Грамматика типа 2
Грам. типа 3
Хомский предложил классификацию формальных грамматик по типу выражения правил и предложил выделить 4 основных формальных грамматик, называемых Иерархией Хомского:
Грамматика типа 0 - генеративная, самая сложная, никаких ограничений на вид ее правил не накладывается. Грамматика типа 0, порождающая (generative grammar), - в классической записи это четверка G=(N,∑, P, S), где N, ∑ - алфавит (N - нетерминальные символы, ∑ - терминальные символы метаязыка); S - начальный символ нетерминального множества, Р - правила репродукции. Для распознавания языков, порождаемых этими грамматиками, используются машины Тьюринга - мощные, абстрактные, и следовательно неприменимые на практике математические модели, которые используются в теории информатики.
Грамматика типа 1 - называются контекстно-зависимыми грамматиками, и в них возможность замены цепочки символов может определяться контекстом. Используются для генерации элементов естественных языков и подъязыков
Грамматика типа 2 - контекстно-свободные, причем в левой части нетерминала могут быть всем, чем угодно. Они распознаются в информатике так называемыми автоматами с магазинной памятью (стековые автоматы). Используются для генерации элементов языков программирования (выражений, команд).
Грамматика типа 3 - называют регулярными, самые простые и ограниченные грамматики, распознаются конечными автоматами. Используется для простых элементов языков (числа, константы, переменные)
Язык называется контекстным языком, если он порождается некоторой контекстной грамматикой. Контекстно-свободные языки также называют алгебраическими языками, ими занимается математическая лингвистика (ныне раздел компьютерной лингвистики. В компьютерной лингвистике выделяют раздел - лингвистические основы информатики, который занимается проблематикой формальных языков и грамматик.
Компьютерная лексикография. Основные направления компьютерной лексикографии. Компьютерные программы поддержки лексикографических работ. Электронные словари. Особенности автоматических словарей. Коммерческие электронные словари. Основные типы электронных словарей. Тезаурусы. Информационно-поисковый тезаурус. Компьютерная терминография. Терминологические банки данных (ТБД).
Компьютерная лексикография –
Это важное направление в прикладной лингвистике, которыое занимается составлением словарей. Основные направления:
1. автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т.д.) 2. теоретические и практические аспекты составления компьютерных словарей для NLP-систем. (Natural Language Processing) 3. создание словарей, являющихся машинными версиями традиционных словарей
Первое и второе направления занимаются разработкой «программ поддержки лексикографических работ»
Здесь выделяют 2 класса электронных словарей:
Словари для программы обработки текста – это информационно-поисковые тезаурусы, частотные словари, рубрикаторы, классификаторы, словари морфологического анализа; словари для машинного перевода, которые включают подробную информацию о морфологических, синтаксических и семантических особенностях функционирования слова. Количество зон словарных статей в таких словарях варьируется от 1 до 100. Каждая зона словарной статьи содержит особый тип словарной информации: лемма, грамматическая информация или стилистические пометы, зоны значения и толкования;
Словари конечного пользователя – это копии бумажных словарей, но с возможностями сортировки, поиска, группирования понятий. Например, Lingvo, Webster (на англ.яз.), энциклопедический словарь Ожегова и др.
Существуют этапы технологии создания электронных словарей (это словарь конечного пользователя), можно выделить 7 этапов:
Формирование корпусов текстов, из которых выбираются данные слова
Создание словника (без толкования)
Автоматическое толкование примеров
Формирование и ввод в базу данных словарных статей
Редактирование и корректура словарных статей
Формирование оригинала макета
Печать словаря в типографии
На этапах 5 и 6 при компьютерной подготовке словаря идет работа с издательскими системами, например, PageMaker, Frame Maker, Quark Express.