- •I часть. «Прикладная и компьютерная лингвистика»
- •Язык и теория знаков. Семиотика (предмет, объект, методы, задачи).
- •Структурная и Математическая лингвистика. Моделирование в лингвистике. Понятие лингвистической модели. Основные требования к модели. Понятие формализации.
- •Аналитический вид
- •Синтетический вид
- •Языки и модели представления знаний и семантики (семантические сети, фреймы, логика предикатов, продукции, сценарии и др.).
- •Лингвистические модели (исследовательские, модели анализа и синтеза, порождающие). Задачи Теории формальных языков. Иерархия Хомского.
- •Иерархия Хомского:
- •Компьютерные программы поддержки лексикографических работ
- •Новые разработки в лексикографии
- •Основные понятия
- •Типы корпусов
- •Основные требования к корпусам и основная задача
- •Опыт разработки корпусов текстов
- •Технологии анализа и синтеза естественного языка. Области использования. Уровневый анализ ея, начиная с технологий ocr/icr и т.Д.
- •Морфологический анализ. Виды ма. Лингвистическое обеспечение морфоанализаторов (словарь Зализняка и др.). Лексико-грамматический анализ и разметка (pos-tagging). Области применения.
- •Синтаксический анализ, задачи вывода и разбора (формальные грамматики, модели составляющих и зависимостей, нисходящий и восходящий парсинг).
- •Формальные системы, используемые в автоматизированных и синтаксических анализах.
- •3 Основных способа представления синтаксической структуры предложения.
- •Дерево вывода.
- •Стилистика. Прикладной характер стилистических исследований. Стилистические средства языка. Функциональные стили речи. Основные особенности.
- •II) Некоторые понятия звуковых технологий
- •Синтез речи – задачи и принцип работы систем. Методы синтеза речи, способы моделирования человеческой речи, типы синтезаторов речи. Системы синтеза текст-речь.
- •II)Классификация программ call.
- •III)Дистанционное обучение ( Distant Learning)
- •3 Основных компонента в www:
- •2.2 Гипертекстовая технология
- •Как указывать ключевые слова?
- •Социолингвистика
- •Информационный язык
- •Прямой поиск
- •Инвертированный файл
- •Область технической коммуникации как новое направление прикладной лингвистики. Компетенции разработчика технической документации. Стандартизация документов.
- •Прикладная и теоретическая лингвистика – проблемы взаимовлияния.
Язык и теория знаков. Семиотика (предмет, объект, методы, задачи).
Семиотика – изучает знаки и знаковые системы как средства хранения, передачи и перераспределения информации в человеческом обществе, природе и в самом человеке. Как наука семиотика оформилась лишь в 1974 году.
Предмет семиотики:
1. знаковые аспекты 2. знаки
всех видов коммуникаций
Объектом изучения семиотики стали различные символьные системы (знаковая система)
Задачи семиотики:
Сравнение, сопоставление и обобщение частных семиотик
Рассмотрение того как абстрактные языковые отношения проявляются в различных знаковых системах
Формирование общих семиологических законов
Основные направления в современной семиотике:
1 Биосемиотика – изучение систем сигнализации (коммуникации) животных
2 Этносемиотика
3 Лингвосемиотика – изучение ест. языка с его стилистикой
4 Абстрактная семиотика – абстрактная логико-математическая теория знаковых систем.
5 Общая семиотика
Семиозис - означивание, знаковое представление информации и использование знаков.
Основателем семиотики считается американский логик, философ и естествоиспытатель Ч.Пирс (1839–1914), который и предложил ее название. Пирс дал определение знака, первоначальную классификацию знаков (индексы- знаки, чьи формы содержания связаны причинно-следственными отношениями , иконы- знаки, чьи формы содержания как-то похожи , символы – знаки, между которыми связь устанавливается по договору или соглашению (дорожные знаки) ), установил задачи и рамки новой науки.
Семиотические идеи Пирса, изложенные в очень нетрадиционной и тяжелой для восприятия форме, в 1930-х годах развил другой американский философ – Ч.Моррис.
Несколько позднее швейцарский лингвист Ф. де Соссюр (1857–1913) сформулировал основы семиологии, или науки о знаках. Термин «семиология» и сейчас используется в некоторых традициях как синоним семиотики.
В СССР действовало 2 семиотических центра в Москве и Талине (Прибалтика)
В основе семиотики лежит понятие знака.
В задачи семиотики входит обобщение полученных другими науками знаковых результатов, их анализ собственными средствами и представление полученных выводов для использования в любой области знания.
Язык и теория знаков
Лингвистику интересуют общие положения семиотики о знаках, различительные признаки знаков, способы классификации знаков, комбинация их в систему для конкретных задач.
Знаковая теория языка, общепринятая в структурной лингвистике концепция, рассматривающая язык как специальный вид семиотических (знаковых) систем и ограничивающаяся рассмотрением семиотических свойств языка.
Основателем Знаковая теория языка считается Ф. де Соссюр. Намеченная Соссюром Знаковая теория языка была развита и модифицирована Л. Ельмслевом. В СССР Знаковая теория языка развивается с середины 50-х гг. и разделяется большинством советских лингвистов.
Существует много определений понятия «знак». Вот одно из них:
«Знак – это некое В, преднамеренно поставленное кем-то вместо некоторого А с целью информировать кого-то об этом А»
Знак материален и обладает направленным значением. В знаке выделяют 2 основных аспекта:
план выражения (материальный, как выглядит)
план содержания (обозначение, смысл)
Среди языковых знаков, почти все относятся к символьным.
В коммуникации используются не отдельные знаки, а объединенные в знаковые системы (языки программирования, система дорожных знаков, шифры…). Объединение знаков в системы основываются на разных критериях:
1) Общность функции
2) Сходство форм
3) Подобие структур
Знаковыми единицами языка считают морфемы и лексемы, т.к. они несут информацию и значение в отличие от единиц низшего уровня языка – звуков и букв.
В речи выделяют 3 семиотических аспекта (3 основных области семиотики):
синтактику (или синтаксис) – изучает отношения между самими знаками
семантику – отношение между знаком и значимым
прагматику – изучает отношение между знаком и его пользователями.
В 1923г. Американцы – С.К. Огден и И.А. Ричардс - семантический треугольник («треугольник Огдена - Ричардса). Углы которого выступают: (1) символ (слово в качестве означающего); (2) понятие (мыслительный конструкт, символизируемый словом); (3) референт (внешний объект, с которым соотносится понятие).
Естественные и искусственные языки. Формальный метод описания языка. Язык программирования как пример искусственного языка (уровневая структура). Особенности языков Pascal, Javascript, HTML. Понятие метаязыка, виды метаязыков. БНФ-нотации и синтаксические диаграммы. БНФ в программировании. Лингвистические основы информатики (приложение теории формальных языков).
Искусственные языки - это знаковые системы, создаваемые для использования в тех областях науки и техники, где применение естественных языков ограничено, менее эффективно, или невозможно. Любой искусственный язык – ограниченный язык, служащий для решения определенных задач.
Классификация искусственных языков:
1. Неспециализированные языки общего назначения (эксперанто, волапюк)
2. Специализированные языки различного назначения
1) Человеко-машинные языки (компьютерные языки: паскаль)
2) Общего назначения (языки наук: математика)
Языки программирования – это класс искусственных языков, предназначенных для обработки информации с помощью компьютеров. Языков программирования в мире около 1000.
Можно выделить следующие качественные уровни развития ЯП:
1) Языки низшего уровня – Ассемблеры (работа с машинными кодами (1 и 0) (40-50гг))
2) Среднего уровня – Фортран, Алгол (60е года)
3) Высокий уровень – Паскаль, С, С+, Prolog (с 80х гг)
Особенности языков Pascal, Javascript, HTML
1) Паскаль (англ. Pascal) — высокоуровневый язык программирования общего назначения. Один из наиболее известных языков программирования, широко применяется в промышленном программировании, обучении программированию в высшей школе, является базой для большого числа других языков. Был создан Никлаусом Виртом в 1968-69 годах (опубликован в 1970 году).
Компилятор Паскаля был написан на самом Паскале c использованием метода раскрутки.
Особенности языка
Особенностями языка являются строгая типизация и наличие средств структурного (процедурного) программирования. В Паскале сведены к минимуму возможные синтаксические неоднозначности, а сам синтаксис сделан интуитивно понятным даже при первом знакомстве с языком.
Наиболее известной реализацией Паскаля, обеспечившая широкое распространение и развитие языка, является Turbo Pascal фирмы Borland, выросшая затем в объектный Паскаль для DOS и Windows и далее в Delphi, в которой были внедрены значительные расширения языка.
Диалекты Паскаля, применяемые в Turbo Pascal для DOS и Delphi для Windows, стали популярны из-за отстутствия других успешных коммерческих реализаций.
2) Javascript — объектно-ориентированный скриптовый язык программирования.
JavaScript обычно используется как встраиваемый язык для программного доступа к объектам приложений. Наиболее широкое применение находит в браузерах как язык сценариев для придания интерактивности веб-страницам.
Основные архитектурные черты: динамическая типизация, слабая типизация, автоматическое управление памятью, прототипное программирование.
Языком JavaScript не владеет какая-либо компания или организация. Название «JavaScript» является зарегистрированным товарным знаком компании Sun Microsystems, Inc.
Разработчики ставили перед собой цель обеспечить «язык для склеивания» составляющих частей веб-ресурса: изображений, плагинов, Java-апплетов, который был бы удобен для веб-дизайнеров и программистов, не обладающих высокой квалификацией.
Первоначально язык назывался LiveScript. На синтаксис оказали влияние языки Си и Java. 4 декабря 1995 года LiveScript переименовали в JavaScript. получив соответствующую лицензию у Sun.
3) HTML (от англ. HyperText Markup Language — «язык разметки гипертекста») — стандартный язык разметки документов во Всемирной паутине. Большинство веб-страниц создаются при помощи языка HTML (или XHTML). Язык HTML интерпретируется браузером и отображается в виде документа, в удобной для человека форме.
Язык HTML был разработан британским учёным Тимом Бернерсом-Ли приблизительно в 1991—1992 годах. HTML создавался как язык для обмена научной и технической документацией, пригодный для использования людьми, не являющимися специалистами в области вёрстки. С помощью HTML можно легко создать относительно простой, но красиво оформленный документ. Помимо упрощения структуры документа, в HTML внесена поддержка гипертекста. Мультимедийные возможности были добавлены позже. Изначально язык HTML был задуман и создан как средство структурирования и форматирования документов без их привязки к средствам воспроизведения (отображения). В идеале, текст с разметкой HTML должен был без стилистических и структурных искажений воспроизводиться на оборудовании с различной технической оснащённостью.
_____________________________________________
Общим признаком описания специализированных искусственных языков является формальный метод, их определяют с помощью алфавита, словаря и системы правил образования и преобразования выражений. Формальный метод необходим для порождения правильных текстов (т.е. записанных по определенным правилам). Для этого используется метод формальных грамматик.
Формальная грамматика – это абстрактный аппарат позволяющий с помощью единообразной процедуры получать правильные тексты данного языка (например, порождающая грамматика Хомского).
Кратко опишем порождающую грамматику. Порождающая формальная грамматика – это система Г = Vт, Vнт, S, R, где
Г- грамматика;
Vт - множество терминальных (конечных) символов языка;
Vнт - множество нетерминальных символов (из которых можно выводить далее), заключаются в угловые скобки <…>;
S - начальный символ нетерминального множества;
R – система правил вывода типа XY (где X,Y – цепочки символов из Vт, Vнт).
Множество цепочек, выводимых в Г из ее начального символа S, есть язык, порождаемый этой грамматикой Г (т.е. вывод цепочек всегда начинается с нетерминала S).
-
Пример:
Формальная система:
Г =<{I, We, They, .},
{S, Pr, V, N}, S, R>, где
{I, We, They, .} – Vт,
{S, Pr, V, N} - Vнт
система правил R:
<S><Pr><V><N>.
<Pr> I WeThey
<V> love
<N> music
язык, порождаемый согласно правилам вывода R:
I love music.
We love music.
They love music.
Формальная грамматика, изложенная по подобным правилам, в свою очередь, образует Метаязык, т. е. специальный символический язык для работы с языком (похож на язык математической логики).
На практике применяется еще один метаязык - Бекус-Науровы формы (БНФ–формы или БНФ–нотации), которые как и формальная грамматика служат для задания правил получения правильных текстов.
-
Пример:
БНФ-нотация для описания англо-русского словаря:
Пример типовой странички
P
Pay [pei] 1. платить; 2. Заработная плата; 3. Расплата.
Pea [pi:] горох.
Peak [pi:k] остроконечная вершина.
<словарь> ::= [<раздел>]
<раздел> ::= <заглавная лат.буква>[<словарная статья>]
<заглавная лат.буква> ::= AB….Z
<словарная статья> ::= <термин> <транскрипция> <перевод>.
<термин> ::= [<прописная лат.буква>]
<прописная лат.буква>] ::= ab…z
<транскрипция> ::= [ [<звук>] ]
<звук> ::= a:…z
<перевод> ::= <определение 1><определение 2>
<определение 1> ::= <слово><словосочетание>
<слово> ::=[<прописная русск.буква>]
<прописная русск.буква>::= абв….я
<словосочетание> ::= [<слово>]
<определение 2> ::= 1.<определение 1>; 2.<определение 1>; …
Аналогичный метаязык, имеющий графическое, наглядное представление – это Синтаксические диаграммы. Синтаксическая диаграмма – это схема, объясняющая правило построения либо некоторого понятия, выражения либо множества текстов.
Пример: |
Синтаксическая диаграмма морфологической структуры русского слова: |
Обе эти формы нашли широкое применение при описании языков программирования в информатике.