Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
PL.docx
Скачиваний:
15
Добавлен:
25.09.2019
Размер:
78.38 Кб
Скачать
  1. Прикладная лингвистика — направление в языкознании, занима­ющееся разработкой методов решения практических задач, свя­занных с использованием языка.

Прикладные сферы языкознания издавна отличались широким разнообразием. Наиболее древние из них — письмо (графика), методика обучения родному и неродному языкам, лексикография. В дальнейшем появились перевод, дешифровка, орфография, терминоведение. Одно из традиционных направлений приклад­ной лингвистики связано с участием в языковой политике госу­дарства и формируется как языковая политика и языковое строи­тельство. Одновременно с развитием и совершенствованием классических областей прикладного языкознания во второй поло­вине XX в. наметился и определился ряд новых его направлений, которые представляют собой логическое продолжение историче­ского развития прикладной лингвистики на новом этапе, обусловленном современной научно-технической революцией, укреплением взаимосвязи общественных, естественных и техни­ческих наук. К этим направлениям относятся: обработка инфор­мации, моделирование знаний, автоматическая обработка языка в его письменной и устной формах.

  1. Методы ПЛ. а) множества и алгебр. Метод, относится к мат. лингвистике – составление матриц б) дистрибуция – термин из америк. дескриптивной лингв. – рассматривается сумма всех окружений, которые встречаются. В) оппозиция – лингв. существенное различие между ед плана выражения и плана содержания. В этом смысле говорят о фонологической оппозиции. Центральную роль в понятии оппозиции играют фонологические концепты. Идея развита Трубецким. Г) функциональный – зародился в копенгагенской школе – Ельмслев функциональная зависимость отвечает условиям анализа. Члены данной зависимости назыв. функтивами. Существует три вида функций: ф-я между 2мя постоянными, между постоянной и переменной, между переменными. Д) репрезентарный метод – репрезентация – отношение между той стороной знака, которая скрыта от наблюдения (означаемое, смысл) и стороной знака, которая дана в непосредственном виде. Е) модели и метод моделирования (про него писать нихуя не буду, так как след. Вопрос про него =)

  2. Метод моделирования и методы семантики. Модель отображает свойства объекта при его изучении. Каждая модель должна удовлетворять требованиям адекватности и экономичности. Существуют компонентные модели, предсказывающие, имитирующие, диахронические. Моделировать можно только те свойства, которые не определяются физической природой. Успешное моделирование связано со структурной организацией объекта. Апресян считает, что наиболее важными являются модели имитирующие речевую деятельность человека. Прикладные модели оказали значительное влияние на лингвистическую теорию, способствуют обновлению концепций лингвистики. Важнейшим свойством методов прикл. лингв. явл. оптимизация. Под ней понимается модель (описание) проблемной области, при котором эта область сохраняет в результирующем представлении только те существенные свойства, которые необходимы для данной практической задачи. сущ. 3 метода к построению лингв. модели. 1) Лингвистический – стремление к использованию максимально полных моделей языка. Многие лингвистические описания не подходят для машинной автоматизации. Всего сущ. 3 вида а)трансформационные грамматики Хомского б)модель смысл-текст (язык как система кодов, соответствующая системе смыслов) в) современная модель Хомского, реализующая принцип ограничений на сформированность лингвистических структур, описания грамматики. 2) Экспериментальный – используется в области искусственного интеллекта, вызван необходимостью сокращения проблемной области языкового текста. Попытка глубокого проникновения в содержание текста и контекст. 3) Прагматический – подход концептуально-инструментальной технологии, которая позволяет осущ. единственный подбор средств эффективной обработки естественного языкового текста, и детерменировать контекст.

  3. Компьютерная лингв. моделирование общения и структуры сюжета. Комп. лингв. – использование компьютерных программ для моделирования функционирования языка в различных ситуациях, проблемных областях. Инструментарий: декларативные знания (толкования слов словаре), процедурные знания, инструментальные знания (инструкция). В теории знаний используются – фреймы – структура данных, предназначенная для предоставления стереотипной ситуации; сценарии - план алгоритма или инструкции; план – связан с конкретной ситуацией, преследует достижение определённой цели. Выбор его регулируется ресурсами исполнителя; модель мира – совокупность знаний о мире, свойственной компьютерной модели когнитивной системы, она связана с пониманием текста. Моделиров. сюжета. Компьютерные программы основаны на морфологическом, синтаксическом представлении сюжета и на когнитивном подходе. Идеи Проппа (идеи о схожести всех сказок) легли в основу программы TALE , которая моделировала порождение сюжета. Каждый мир состоял из локусов. Синтаксис сюжета. Теоретическую основу к синтаксическому подходу составили «сюжетные грамматики», их базовые составляющие: экспозиция, событие и эпизод. Использование таких грамматик приводит к тому, что порождаются тексты, которые не отвечают интуитивному представлению о рассказе. Когнитивный подход . Сюжет описывается как последовательная смена эмоциональных состояний персонажей (подход Ленета), в центре стоят не экспозиция, событие и эпизод, а содержательные характеристики, каждая когнитивная единица представляет собой отклонение, которое оценивается персонажем отрицательно (-) или положительно (+), и когнитивные состояния самих персонажей. Данный подход был успешен (выявлены сюжетные свёртки Евангелиевского текста, были выявлены несколько сюжетных мотивов, которые повторяются в фольклоре и мифах)

  4. ИИ. Модели представления знаний относятся к прагматическому направлению исследований в области ИИ. Эмпирические модели: представляют собой продукционные, сетевые, фреймовые, ленемы, нейронные сети, генетические алгоритмы. Теоретические модели: логические, формальные грамматики, комбинаторные, алгебраические, нейронные сети ИИ. Эмпирические основаны на изучении принципов организации человеческой памяти. Второй подход определяется как теоретически обоснованный, гарантирующий правильность решений. В основном представлен моделями, которые основаны на формальной логике. Самые популярные модели: 1)Продуктивные (основаны на правилах типа «если условие, то действие») 2)Сетевые или семантические сети – граф, отображающий смысл целого образа. Узлы графа – понятия и объекты, дуги – отношения между объектами. Используется для представления декларативных знаний. одна из первых TLC модель (представление семантических отношений между концептами (словами) с целью описания структуры долговременной памяти человека в психологии. Различают экстенсиональные семантические сети (описывают конкретные отношения в данной ситуации) и интенсиональные – имена классов, объектов. Связи отражают те отношения, которые присущи объектам данного класса. 3)Фреймовые – модель Марвина Мински представляет собой систематизированную психологическую модель памяти человека и его сознания. Сюда же включены такие понятия как: фрейм, слот, имя фрейма, имя слота.

  5. Системы обработки естеств. языка: лингвистические модели, области их применения и действующие процессоры. Всего существует 4 вида моделей: компонентные модели, предсказывающие, имитирующие, диахронические. Исходя из структурной традиции, выделяют изолирующие и синтезирующие модели, синтезирующие делятся на собственно синтезирующие и порождающие. По характеру объекта моделирования, различают модели речевой деятельности, модели исследовательской деятельности лингвиста, метамодели. Наиболее важными Апресян считает модели, имитирующие речевую деятельность человека. Вообще, лингвистическое моделирование – это функциональная научно-прикладная область исследований, помогающая строить системы, которые обрабатывают естественные языковые тексты. Классификация моделей по их прагматическим признакам : 1) Когнитивные (семантико-контекстные) обеспечивают глубинное проникновение в контекст, трансформирующее его с сохранением смысла, как внутри одной модели, так и между разными системами машинного перевода. 2) Диалоговые (вопрос-ответ) обеспечивают естественный языковой диалог системы с пользователем. 3) Концептуально - формальные: целевая обработка текстов согласно правилам. 4) Концептуально-функциональные: обеспечивают целостное описание естественно-языкового уровня, обеспечивает разработчиков структурно-функциональной, а так же справочной информацией. Под лингвистическими процессами понимается сумма автоматизированных средств переработки текстовой информации на естественном языке. Подходы к построению лингв. моделей: 1) Лингвистический – стремление к использованию максимально полных моделей языка. Многие лингвистические описания не подходят для машинной автоматизации. Всего сущ. 3 вида а)трансформационные грамматики Хомского б)модель смысл-текст (язык как система кодов, соответствующая системе смыслов) в) современная модель Хомского, реализующая принцип ограничений на сформированность лингвистических структур, описания грамматики. 2) Экспериментальный – используется в области искусственного интеллекта, вызван необходимостью сокращения проблемной области языкового текста. Попытка глубокого проникновения в содержание текста и контекст. 3) Прагматический – подход концептуально-инструментальной технологии, которая позволяет осущ. единственный подбор средств эффективной обработки естественного языкового текста, и детерминировать контекст.

  6. Системы обработки естественного языка: графематический и морфологический уровни. Графематический: исследует статистические законы комбинаций, знаков алфавита, частотность слов, словосочетаний. Анализ грамматического уровня с помощью полиграмм производится с разными целями. Ненайденное слово может 1)отсутствовать в словаре, по причине его неполноты, хотя оно явл. полноправным словом языка 2) оно может быть искажённым словам естественного языка. Графематика обладает информационной избыточностью, которая может быть использована для обработки новых слов в системе автомат. обработки естет. яз., а так же для сжатия текстовых данных. Для использования избыточности в прикладной лингвистике применяются вероятностно-естественные средства и древесно-стахостическое представление графематической информации позволяет решить вопрос о восстановлении искажённых знаков текста. Стахостическое дерево в уздах которого записаны элементы моделируемого объекта, а в дугах – вероятности перехода от предыдущей к следующей цепочке узлов. В узлах записывают графемы, а в дугах – вероятностые следования данной графемы за предыдущей частью полиграмма. Графематические слова имеют неслучайную структуру, слова построены из определённых полиграмм. Состав и количество полиграмм определяется рядом факторов важнейшим из которых явл. аномастическая система данного языка, правила орфографии. Морфологический уровень: Вообще, морфологический анализ – процедура в результате которой из формы внешнего оформления слова в тексте, получает сведения о различных аспектах языковой структуры. Направления морф. анализа 1) Анализ путём разделения словоформы на основу и предположительное окончание, с последующей проверкой на совместимость окончания с основой. 2) По конечному буквосочетанию, при условии предварительно-статистической обработки словаря. 3) Универсальные математические модели морфологии в форме открытых систем уравнений, позволяющих путём вычислений осуществлять нормализацию словоформ, получение грамматической информации и синтез словоформ. Виды морф. анализа: 1) Со словарём словоформ (используются для языков с бедной морфологией) 2) Со словарём основ (использ. для большинства европейских языков). При этом использ. словарь основ слов и вспомогательные таблицы.3) Логический метод (для флективных языков). Вычисление словарной функции слова осущ. по средством а)словоформа как цепочка букв членится на морфемные сегменты. б) словоформы, как цепочка морфемных сегментов, заменяется неупорядоченным множеством элементов-морфем. в) словоформе как множеству морфем, приписывается некоторая информация. г) информация преобразуется в требуемую окончат. информацию о слове.

  7. Системы обработки естественного языка: синтаксический и семантический уровни. Синтаксический анализ имеет целью с помощью алгоритмов получить в явном виде синтаксическую структуру предложения. Синтаксическую структура может быть изображена в виде: скобочной записи; изображение зависимостей (стрелки); дерево. Построение синтаксической структуры может быть изображено в виде грамматики зависимостей или в грамматики непосредственных составляющих. Выявление синтаксической структуры может происходить двумя способами 1) по способу передвижения по тексту: с права на лево и наоборот; циклическими цепочками 2) по отрезкам синтаксической структуры: интегральный метод (отображение всей структуры сразу); и из установленных частей структуры. Разрешение неоднозначностей: 1)формально-грамматический подход: сложные синтаксические правила, позволяющие в каждом конкретном случае принимать решение в пользу конкретных синтаксических структур 2) вероятностно-статистический: учёт статистической встречаемости различных структур в похожем контексте. Программы синтаксического анализа состоит из 2х компонентов: сегментация предложения и установление связи между словами. Семантический уровень. Под автомат. семант. анализом понимается совок. методов и приёмов с помощью которого можно путём строгой однозначной формальной процедуры, реализуемой на компьютере по средством составленных лингвистических алгоритмов, с достаточной точностью представить смысл высказывания на естественном языке, в виде последовательности символов, образующих в целом некую формальную систему. При изучения смысла приходится выходить за пределы языка. Исследования ведутся на директивном, абстрактно-теоретическом уровне и индуктивно-эмпирическом. Основой семантического описания языка составляет система синтагматических и парадигматических отношений между лексемами. Модель синтагматики призвана описать ограничение на сочетаемость лексических единиц в определённых синтаксических ролях. Парадигматический тип – иерархическая классификация лексики в рамках парадигматических рядов и носит название «тезаурусов».

9. Технология гипертекста и ее использование в информационных системах.

Гипертекст - принцип организации информационных массивов, при котором отдельные информационные элементы связаны между собой ассоциативными отношениями, обеспечивающими быстрый поиск необходимой информации и/или просмотр взаимосвязанных данных. Термин гипертекст введен Тедом Нельсоном в 1965 году. Технология гипертекста принадлежит к системам автоматизации деятельности по обработке информации и служит для облегчения поиска нужной информации. Гипертекстовые системы представляют собой реализацию средствами вычислительной техники ассоциативного подхода к представлению информации. Они имитируют способность человеческого интеллекта осуществлять хранение больших объемов информации и поиск в них посредством ассоциаций в процессах коммуникации и мышления. Идея гипертекста состоит в том, чтобы дать возможность человеку воспринимать информацию в последовательности, отвечающем его интересам. Сегодня гипертекстовый документ представляет собой множество фрагментов информации (статей), объединенных в некоторую сетевую структуру. В качестве информационных фрагментов могут выступать текст, графический образ, анимация, видеоролики и даже программа. Гипертекстовые документы получили широкое распространение в электронных изданиях. Идея гипертекста широко использовалась при составлении справочников и энциклопедий. Например, в тексте статьи энциклопедии по какому-либо вопросу встречаются ссылки, типа смотри статью такую-то, содержащую дополнения и пояснения к текущей проблеме. В настоящее время используемая технология гипертекста позволяет получать доступ к большим массивам текстовой информации, не поддающейся упорядочиванию обычными способами. Гипертекстовые системы хорошо приспособлены для создания информационных систем в плохо структурированных предметных областях. Эти технологии применяются тогда, когда пользователь не может четко сформулировать свои информационные потребности, а делает это в процессе поиска информации. Традиционные методы информационного поиска, например по ключевым эффективный доступ к большим информационным массивам.Еще одним воплощением гипертекстовой технологии в совокупности с многолетним опытом в области программного обеспечения (ПО) работы с графическими данными является программный пакет Adobe Acrobat. Этот пакет содержит все необходимые компоненты для создания сложных информационных систем.

10. Метод контент-анализа

Первые опыты использования количественных методов, близких к контент-аналитическим, относятся к концу XIX в. Существенный прогресс в технике контент-анализа связывают с Лассуэлом (провел исследование основных тем и идей, превалировавших в офиц.пропаганде стран-участников Первой мировой войны). Сущность контент-анализа заключается в том, чтобы по внешним – количественным – характеристикам текста на уровне слов и словосочетаний сделать правдоподобные предложения о его плане содержания и, как следствие, сделать выводы об особенностях мышления и сознания автора текста – его намерениях, установках, желаниях и т.д. Для литер.текста может быть поставлена задача изучения особенностей изображения представленных в нем персонажей. Если количество привлекаемых текстов и авторов достаточно велико, то сделанные выводы могут быть распространены на большую социально значимую группу людей и даже на обществ.сознание в целом.

Единицы контент-анализа: (их много написала только некоторые из них!!!)

1. «Физические» единицы. Под таковыми понимаются сущности с четко очерченными физическими, геометрическими или временными границами, например, экземпляры книги, номера газет, экземпляры плакатов или листовок, фотографии и т.п.

2. Структурно-семиотические единицы. Под таковыми имеются в виду основные элементы семиотических систем. В случае естественного языка это: лексика языка (слова и их эквиваленты, например выражение железная дорога или термин контент-анализ, т.е. то, что фиксируется в словарях) и грамматические показатели (например, отрицательные частицы или показател таких категорий, как, скажем, отглагольные имена). Контент-анализ грамматических категорий представляет собой достаточно редкое исследовательское начинание, стимулом к которому является гипотеза (весьма правдоподобная) о том, что употребление грамматических форм в меньшей степени, чем употребление лексики, контролируется автором текста и поэтому может послужить источником таких сведений о нем, которые он сам вовсе не собирался делать доступными своим читателям.

3. Понятийно-тематические единицы. В большинстве случаев контент-аналитик интересуется стоящими за словами значимыми для него понятиями, темами, проблемами – иными словами, тем, что можно назвать понятийно-тематическими единицами. Исследователь, интересующийся тем, какое место в общественном сознании занимает, скажем, проблема преступности, обязан принимать во внимание не только присутствие в анализируемом информационном массиве слова преступность, но и упоминания заказных и всяких прочих убийств, бандитского беспредела, «крыши», «братков», авторитетов, власти криминала и проч.

4. Референциальные и квазиреференциальные единицы. К референциальным, точнее, конкретно-референциальным единицам относятся обозначения реальных личностей, событий, городов, стран, организаций и т.д. Это, так сказать, «энциклопедический» блок единиц анализа.(например, -В.В.Жириновский, Владимир Вольфович, Вольфыч, Жирик, сын юриста, лидер ЛДПР- способы обозначения в тексте конкретной фигуры могут различаться, однако конкретно-референтная единица здесь во всех случаях одна). Квазиреференциальные единицы в политических текстах чаще всего бывают представлены обозначениями всякого рода «сил» – коллективных актеров политической сцены, референция которых может колебаться от реальной (типа КПРФ) через обобщенную (коммунисты, либералы, исламисты) к откровенно мифологизированной (мировая закулиса).

5. «Поэтические» единицы. Под таковыми имеются в виду допускающие количественное измерение средства художественной выразительности – например, каламбуров, аллитераций и т.п.

Этапы контент-анализа:

Первый этап: Выбор материала - корпус языковых данных. Классический пример корпуса – газетные публикации за опред. период времени и др. Второй этап: Выбо концептуальной переменной и определение ее значений – языковых репрезентантов выбранного понятия в тексте. Третий этап: Выбор единицы кодирования. Значения концептуальной переменной могут приписываться текстам, их фрагментам, абзацам и отдельным словам и словосочетаниям. Четвертый этап: Отбор кодировщиков и формулировка инструкций по кодированию. Общий принцип кодировки – жесткий и мягкий. Пятый этап: Происходит кодировка данных. Шестой этап: Осуществляется подсчет данных и интерпретация результатов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]