- •I часть. «Прикладная и компьютерная лингвистика»
- •Язык и теория знаков. Семиотика (предмет, объект, методы, задачи).
- •Структурная и Математическая лингвистика. Моделирование в лингвистике. Понятие лингвистической модели. Основные требования к модели. Понятие формализации.
- •Аналитический вид
- •Синтетический вид
- •Языки и модели представления знаний и семантики (семантические сети, фреймы, логика предикатов, продукции, сценарии и др.).
- •Лингвистические модели (исследовательские, модели анализа и синтеза, порождающие). Задачи Теории формальных языков. Иерархия Хомского.
- •Иерархия Хомского:
- •Компьютерные программы поддержки лексикографических работ
- •Новые разработки в лексикографии
- •Основные понятия
- •Типы корпусов
- •Основные требования к корпусам и основная задача
- •Опыт разработки корпусов текстов
- •Технологии анализа и синтеза естественного языка. Области использования. Уровневый анализ ея, начиная с технологий ocr/icr и т.Д.
- •Морфологический анализ. Виды ма. Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.). Лексико-грамматический анализ и разметка (pos-tagging). Области применения.
- •Синтаксический анализ, задачи вывода и разбора (формальные грамматики, модели составляющих и зависимостей, нисходящий и восходящий парсинг).
- •Формальные системы, используемые в автоматизированных и синтаксических анализах.
- •3 Основных способа представления синтаксической структуры предложения.
- •Дерево вывода.
- •Стилистика. Прикладной характер стилистических исследований. Стилистические средства языка. Функциональные стили речи. Основные особенности.
- •II) Некоторые понятия звуковых технологий
- •Синтез речи – задачи и принцип работы систем. Методы синтеза речи, способы моделирования человеческой речи, типы синтезаторов речи. Системы синтеза текст-речь.
- •II)Классификация программ call.
- •III)Дистанционное обучение ( Distant Learning)
- •3 Основных компонента в www:
- •2.2 Гипертекстовая технология
- •Как указывать ключевые слова?
- •Социолингвистика
- •Информационный язык
- •Прямой поиск
- •Инвертированный файл
- •Область технической коммуникации как новое направление прикладной лингвистики. Компетенции разработчика технической документации. Стандартизация документов.
- •Прикладная и теоретическая лингвистика – проблемы взаимовлияния.
II) Некоторые понятия звуковых технологий
В обработке звука существует такое понятие как grabbing-цифровое копирование, при котором цифровое содержание звука CD-дисков сбрасывается прямо на жесткий диск, но с помощью дисководов CDromа и специальной программы-grabber.(например, MP3-копируется).Существует много звуковых форматов ,например MP3-позволяет сжимать информацию.
Звуковые форматы:
WAV
ReaA
MID
AIF
WMA
Принцип работы систем распознавания речи
Существует 2 основных режима:
режим с настройкой на голос (адаптивный)
режим без настройки на голос (неадаптивный)
Выглядит следующим образом Человек читает некоторые специальные тексты, компьютер распознает слова и выдает варианты распознания. Человек редактирует ошибки, т.е. некорректные слова, читает заново. После некоторых таких этапов коррекции компьютер оказывается в состоянии распознать речь человека. В таких системах используют специальные ограниченные словари (обычно до 1000 слов)
Считается наиболее сложными для реализации, т.к. система должна распознать речь любого человека. Нервная система гораздо легче организуется для человека с жестким фонетическим строем (немецкий, русский)
Существующие компьютерные системы распознания речи, как правило, базируются на базе 2 компонентов – лингвистического и акустического.
Акустическая модель отвечает за предстоящий речесигнал, т.е. преобразование его в некоторую физическую форму, за счет выделения характерной речевой волны.
Лингвистическая модель интерпретирует информацию акустической модели за счет заложенных лингвистических знаний, выдает признаки технические или иные фонетические и представляет их пользователю.
I BM ViaVoice
D ragon Systems Dragondietate
P hilips Sprach Magic
HBBY (русская)
Наиболее известными исследовательскими организациями, занимающимися речевыми технологиями является Московский Государственный Лингвистический Университет с кафедры теории и практики лингвистики.
Синтез речи – задачи и принцип работы систем. Методы синтеза речи, способы моделирования человеческой речи, типы синтезаторов речи. Системы синтеза текст-речь.
Синтез речи
С интез речи – образованная операция по отношению к распознаванию речи и специальная технология преобразования текста в речи (текст речь). Эта технология так же относиться к проблематике автоматической обработки языка и основная обязанность ее применения различных систем, предусмотрение голосовой передачи информации.
Краткая история технологии
Зародилась в 1922 году, когда было создано механическое устройство, называющиеся электросинтезатор - устройство, которое позволяет синтезировать звук волны. В 30-е года было создано специальное устройство, позволяющее анализировать речь и превращать ее в акустические параметры.
В 1940 году был создан первый синтезатор речи и появились в этот же период теоретическое обоснование акустической теории преобразования и заложено основа теория синтезаторов речи. Но только в 1972 году было достигнуто приемлемое качество синтезированной речи. В 90-хх годах технология перешла в компьютерную среду и качество ее возросло.
Основные методы и способы моделирования человеческой речи. Существует 2 основных метода синтезы речи:
- первый метод, в котором сообщение конструируется из заранее заполненных отрезков естественные речевые волны – метод на основе сэмплов.
- второй метод, в котором речь порождается на базе правил с помощью модели речевого трактата – синтеза по правилам.
Соответственно выдвигают 2 типа синтеза речи: с ограниченными и неограниченными словами.
устройство с ограниченными словарем речь храниться в виде слов и предложений и выводиться в определенной последовательности. Речь единожды произноситься диктором заранее и хранится в цифровом формате. Этот синтез очень простой, но его недостаток в его ограниченности.
в синтаксических с неограниченным словарем элементами речи являются фонемы или слоги. Поэтому и ставиться метод синтеза по правилам, а не простая компоновка. Эти правила базируются на правилах морфологии, синтаксис языка. Основным недостатком этого метода является относительно невысокое количество синтезированной речи, хотя речь могла быть синтезирована любая.(+).
Методы синтеза речи, способы моделирования человеческой речи, типы синтезаторов речи.
Способы моделирования речи
1. Предлагает моделирование собственно голосовым сигналом, т.е. речь разбивается на элементы, из которых в последствии собираются слова и текст в целом. Данный способ – форматный. Синтезатором называется синтезаторами формант, а способ синтеза речи.
Этот способ в настоящее время доминирует в компьютерных технологиях.
2. Моделирование голосового аппарата человека, т.е модель речевого трактата, когда некоторым способом изменяется положение губ, языка, зубов при произнесении звука. Данный способ – артикуляторный. Он не распространен в виду большой сложности моделирования.
Системы синтеза текста в речь.
Существует множество систем синтеза, которые классифицируются в зависимости от размера исходных элементов для синтеза. Например, микросегментные системы, аллофонические, полуслоговые, слоговые и т.д.
И наиболее популярный метод во всех этих системах – компилятивный синтез речи.
Принцип действия его такой : из письменного текста выдают отдельную словоформу. Между ними оставляют паузы в соответствии с правилами языка, знаки препинания и интонации. Озвучивание осуществляется с помощью дробления словоформ на фонему или аллофоны для получения фонемной транскрипции. Неполные слова могут быть и в словаре сэмплов. Например, я, мы.
Алгоритм компилятивного синтеза предполагает, что в его библиотеке хранятся отдельные звуки, из которых собирается синтезируемая речь. В настоящее время создание программных синтезов кроме известных компаний (корпорации IBM) участвуют и крупные международные фирмы(Rollana, Yamaha). Самые известные синтезы речи Talk to me и Compositor, waw manner.
Электронные издания и электронные учебные пособия. Виды интерактивного взаимодействия в ЭУП. Обучение языку с помощью компьютера (CALL Computer Assisted Lang. Learning). Традиционные подходы к обучению иностранному языку и новые технологии. Компьютерные программы для создания ЭУП и для обучения лексике, грамматике, тестовые программы (примеры).
Электронные издания и электронные учебные пособия.
Электронный документ – документ на компьютерочитаемом носителе, для исполнения которого необходимо средство вычислительной техники.
Электронные издания – это совокупность графических, цифровой, речевой, видео и другая информация, а так же печатная документация пользователя. Электронное издание может быть использовано на любом электронном носителе( магнитом, оптическом, микроэлектромагнитном, цифровом), а так же опубликован в компьютерной сети.
К электронным изданиям относятся издания: созданные и соответствующие полному учебному курсу или отдельным его частям по различным видам учебных дисциплин и учебных форм, т.е. лекциям, семинарам, лабораторным работам.
Электронные издания различают:
по наличию печатного эквивалента(электронные аналоги печатного издания – электронные книги)
по природе основной информации:
а) текстовые
б) изобразительные ( с графикой)
в) звуковые
г) программный продукт – самостоятельное произведение или публикация текста программы на языке программирования или в другом программном виде.
д) мультимедийные (текст + графика + звук) имеют гипертекстовую форму
3. по цели использования :
а) официальные электронные издания ( электронные издания, публикуемые от имени государственных органов, учреждений и общественных организаций нормативного, директивного характера).
б) научные электронные издания – содержат сведения о теории или экспериментального исследования, а так же научно-подготовительной публикации или исторические документы, или памятники культуры.
в) научно-популярные издания – содержат научные сведения, изложенные в форме доступной читателю, не специалисту.
г) производственно-практические электронные издания – содержат сведения по технологии, технике и организации производства для специалистов различных квалификаций.
д) учебные электронные издания – содержат систематизированные сведения научного или практического характера, изложенные в форме удобной для преподавателя и для разного контингента обучаемых.
е) массово-политические электронные издания – содержат произведения общественно-политической тематики агитационно-пропогандистского для мирового круга читателей.
ж) справочные электронные издания – содержат краткие сведения научного или практического характера, организованные так, что бы их легко было отыскать(в форме ссылок, указателей).
з) электронные издания для досуга – содержат общедоступные сведения по организации быта, различные виды увлечений, компьютерные игры.
и) рекламные – содержат сведения, изложенные во внешнепривлекающей форме об изданиях, услугах, мероприятиях с целью создания спроса.
к) художественные электронные издания – художественная литература, культура и т.д.
4. по технологии распространения :
а) локальные
б) сетевые (доступны неограниченному количеству пользователей)
5. по периодичности
а) периодические электронные издания – то, которое выходит через определенные промежутки времени, но не повторяется по содержанию, хотя и имеет определенно неизменяемую структуру.
б) обновляемое электронное издание – выходит через определенные промежутки времени, но каждый выпуск содержит в себе оставшуюся актуальной информацию, и дополняется новой(сайт).
в) серийное электронное издание – выходит в течении определенного периода в виде серий выпусков.
6. по структуре
а) однотомные/многотомные (1/несколько CD)
б) электронная серия (серийное электронное издание включаемое в себя несколько томов).
по виду учебной деятельности (электронные лекции, лабораторные работы, электронные хрестоматии и справочники).
Электронно-учебное пособие и средства интерактивного взаимодействия.
Электронно-учебное пособие - издание частичного или полностью заменяющее учебное, как правило содержит основную учебную информацию + сборники упражнений, методические указания к практическим лабораторным заданиям, справки, глоссарии.
Выделяют следующие виды взаимодействия пользователя с электронно-учебным пособием:
Гипертекст
Гипермедиа ( от текста к картинке, звуку)
Моделирование материала – студент имеет возможность изменить параметры ситуации и наблюдать за изменением результата.
Проверка знаний
Проверка знаний имеет очень важную роль в электронно-учебных пособиях, обязательно присутствует в виде текстов по изученным вопросам.
Свойства контроля обычно направлены на самоконтроль в процессе обучения. Так же текст может иметь более сложную структуру и охватывать всю дисциплину в целом.
Обучение языку с помощью компьютера (CALL Computer Assisted Lang. Learning).
Существует такое направление обучения иностранному языку как автоматизированное обучение языку с помощью новых информационных технологий( computer-assisted information technology(CALL)/
Развитие систем CALL отражают изменения самого процесса обучения от подхода ориентированного на преподавателя (репетитор, тренажер) до подхода полностью ориентированного на студента и преподавателя:
1) Teacher Oriented Approach
2) Student Oriented Approach
В настоящее время за рубежом проблемы CALL-технологии решаются совместными усилиями различных специалистов:
-методистов
-психологов
-лингвистов
-программистов
-специалистов НИТ
Появляются новые технологии, например Intelligent CALL.
Бурное развитие технологии CALL началось с развитием мультимедиа и компьютерной графики. Появились программы с таблицами, анимацией, звуком и компьютерная методика предложила способы моделирования различных обучающих сред, учитывающих:
-ролевые отношения, когда обучающий может выступать в диалоге с компьютером.
-подача информации, когда обучаемый сам выбирает последовательность и объем информации
-создание микромиров и игровых ситуаций ( когда моделируется та или иная ситуация или среда).
В настоящее время методика разработки CALL-программ решает следующие задачи:
-контроль за обучающимися в виде подсчета правильных ответов в виде протоколов или электронных тетрадей, воспроизводящих все ,что делал обучающийся
-разработка средств групповой, индивидуальной и парной работы
-большой объем упражнений для выбора обучающегося.