- •I часть. «Прикладная и компьютерная лингвистика»
- •Язык и теория знаков. Семиотика (предмет, объект, методы, задачи).
- •Структурная и Математическая лингвистика. Моделирование в лингвистике. Понятие лингвистической модели. Основные требования к модели. Понятие формализации.
- •Аналитический вид
- •Синтетический вид
- •Языки и модели представления знаний и семантики (семантические сети, фреймы, логика предикатов, продукции, сценарии и др.).
- •Лингвистические модели (исследовательские, модели анализа и синтеза, порождающие). Задачи Теории формальных языков. Иерархия Хомского.
- •Иерархия Хомского:
- •Компьютерные программы поддержки лексикографических работ
- •Новые разработки в лексикографии
- •Основные понятия
- •Типы корпусов
- •Основные требования к корпусам и основная задача
- •Опыт разработки корпусов текстов
- •Технологии анализа и синтеза естественного языка. Области использования. Уровневый анализ ея, начиная с технологий ocr/icr и т.Д.
- •Морфологический анализ. Виды ма. Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.). Лексико-грамматический анализ и разметка (pos-tagging). Области применения.
- •Синтаксический анализ, задачи вывода и разбора (формальные грамматики, модели составляющих и зависимостей, нисходящий и восходящий парсинг).
- •Формальные системы, используемые в автоматизированных и синтаксических анализах.
- •3 Основных способа представления синтаксической структуры предложения.
- •Дерево вывода.
- •Стилистика. Прикладной характер стилистических исследований. Стилистические средства языка. Функциональные стили речи. Основные особенности.
- •II) Некоторые понятия звуковых технологий
- •Синтез речи – задачи и принцип работы систем. Методы синтеза речи, способы моделирования человеческой речи, типы синтезаторов речи. Системы синтеза текст-речь.
- •II)Классификация программ call.
- •III)Дистанционное обучение ( Distant Learning)
- •3 Основных компонента в www:
- •2.2 Гипертекстовая технология
- •Как указывать ключевые слова?
- •Социолингвистика
- •Информационный язык
- •Прямой поиск
- •Инвертированный файл
- •Область технической коммуникации как новое направление прикладной лингвистики. Компетенции разработчика технической документации. Стандартизация документов.
- •Прикладная и теоретическая лингвистика – проблемы взаимовлияния.
Основные понятия
Проблемная область –это область реализации языковой системы, содержащая явления, подлежащие лингвистическому описанию. …, это речь того или иного писателя, детская речь.
Корпус данных – это сформированная по определенным правилам выборка данных из проблемной области, для которой часто используются операции сужения проблемной области до некоторого количества текстов, отражающих явления, присущие этой проблемной области.
Сужение – это очень сложная задача выполняется либо экспертами, либо часто на основе статистики.
Единица хранения корпуса – зависит от принципов, по которым осуществляется выборка, т.е. единицами могут быть как отдельные слова, предложения и целые тексты. Единицы хранения представляются в записях базы данных или в виде текстового массива или в виде текстов.
Можно выделить корпус текстов как отдельное понятие, здесь единица хранения – текст или его значительный фрагмент (обычно это не менее 1000 слов).
Типы корпусов
Это вариант корпуса текстов, которые классифицируются по типу исследовательских задач:
Исследовательский – предназначен для изучения определенных аспектов функционирования, язык, системы, является размягченными (морфологическая разметка, синтаксическая разметка, часто они называются аннотированные корпуса (Tagged Corpus).
Иллюстративный используется для подтверждения и обоснования каких-либо лингвистических фактов.
Динамический (мониторный) – предлагает обновление, дополнение материала, иначе выводы будут неверные (пресса)
Статический (авторский)
Корпус параллельных текстов – используется для теории и практики перевода, для составления двуязычных словарей.
Учебный (Learne Corpus) – корпус речи учащихся (определенной группы) неносителей языка. Примеры : Cambridge-Lerne - Corpus, London - Lerne - Corpus.
Фундаментальный – отражает состояние языка в целом, для чего собирается максимальное количество вариантов диалектов, причем выбираются жанры, стили, а также устный и письменный регистр.
Основные требования к корпусам и основная задача
Основная задача корпусной лингвистики - это разработка общих принципов создания корпуса текста и корпуса данных и формирование общих требований к корпусу c точки зрения пользователя, таких требований несколько:
Репрезентативность – это способность отражать все свойства проблемной области релевантные для данного типа лингвистического исследования в определенной пропорции, определенные частотой данного исследования. В настоящее время минимальный объем для репрезентативности это 1000 текстов * 1000 слов.
Полнота – это требования, отражения всей языковой системы или лингвистического явления.
Экономичность – противопоставляется полноте, при максимальном описании явления корпус должен быть компактным.
Компьютерная поддержка корпусов :
определенные форматы (БД, html)
программы морфологического и синтаксического анализа, если он размечен
Но для любого корпуса обязательно используются специальные программы, которые называются конкордансы, которые позволяют осуществить поиск выбранного явления по всему тексту и показывают это явление в контексте (выдает список выбранных лексем в контексте их употребления)
Пример: поиск по всему тексту
-
Work/2,5,6 раз (встречаемость)
слова слова слова work слова слова
слова слова слова work
слова working
Можно пролистать, где это слово встречается. Выбираются все предложения с этим словом. Можно узнать все формы его и значения (программа McConcord)
Более современные программы, которые включают в себя конкордансы, элементы нескольких систем, поиск по частям речи построение различных грамматических деревьев называется корпус-менеджером
Кроме конкордансов в компьютерном обеспечении корпуса входят различные программы анализатора: морфоанализаторы, парсеры.
Для разработки корпусов часто используют различные оболочки для структуризации корпуса (в языках html, xml) по определенным стандартам типа Text Encoding Initiative.