
- •1. Соотношение теоретической и прикладной лингвистики. Основные задачи и методы прикладных лингвистических работ.
- •2. Декларативные и процедурные знания. Формы представления знаний в прикладной лингвистике. Фреймы, сценарии, планы, модели мира.
- •3. Ситуации и ключевые слова. Ключевые слова и текст. Ключевые слова и поисковый образ документа.
- •4. Теоретические и прикладные аспекты моделирования общения.
- •5. Гипертекст как особая форма передачи информации. Структурные и функциональные особенности гипертекста. Основные типы гипертекстов.
- •6. Квантитативная (количественная) лингвистика, ее лингвистические и математические основания. Структурно-вероятностная модель языка и ее приложения.
- •11. Прикладные аспекты лексикографии. Типология словарей. Компьютерная поддержка создания и использования словарей.
- •12. Структурные компоненты (зоны) словарной статьи. Параметризация лексики. Интегральное представление лексики в словаре.
- •13. «Новый объяснительный словарь синонимов русского языка» (рук. Ю.Д. Апресян) как словарь нового типа, отражающий системные связи лексики.
- •14. Частотные словари. Их создание и использование. Специфика информации, содержащейся в частотных словарях. Строение словарной статьи частотного словаря. Лексические зоны частотного словаря.
- •15. Компьютерная поддержка лексикографических работ. Автоматические словари.
- •16. Термин, терминология и специальные подъязыки. Прикладные работы в области терминологии. Стандартизация терминологической лексики.
- •18. Словари лингвистических терминов.
- •19. Корпусная лингвистика, ее идеология и основные понятия.
- •20. Текстовый корпус как модель коммуникативной сферы. Текстовая структура Британского национального корпуса.
- •21. Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.
- •22. Конкордансы и автоматические конкордансы. Автоматический конкорданс unilex.
- •23. Автоматический морфологический анализ и процедура лемматизации.
- •1. Маркеры - вставка маркеров абзаца и строки.
- •2. Сканирование - получение словника из текста.
- •3. Лемматизация - лемматизация полученного словника.
- •4. Сортировка - сортировка по [леммам и] словоформам.
- •5. Статистика - слияние, получение частоты и ранга.
- •6. Индекс - создание индекса к словнику.
- •6. Сортировка - получение алфавитного, частотного, обратного словника и по частям речи.
- •7. Печать - печать полученного словника.
- •24. Проблема переводимости. Переводческая эквивалентность.
- •25. Переводческие трансформации.
- •I. Лексические трансформации
- •1) Словообразовательные
- •3) Синтаксические
- •26. Лингвистические модели (теории) переводческой деятельности.
- •III. Семантическая модель (Кетфорд)
- •IV. Трехфазовая модель
- •VI. Теория уровней эквивалентности.
- •27. Специфика перевода текстов разных функциональных стилей.
- •I. Научные и научно-технические
- •II. Научно-учебный текст
- •III. Научно-популярный текст
- •IV Энциклопедические тексты
- •29. Информационный поиск. Ипс, их типы, использование. Лингвистические основы разработки и функционирования ипс.
- •30. Контент-анализ, его идеология, основные понятия, использование.
6. Квантитативная (количественная) лингвистика, ее лингвистические и математические основания. Структурно-вероятностная модель языка и ее приложения.
Квантитативная лингвистика: дешифровка текста, авторизация текста.
Статистическая обработка экспериментальных данных
Современная лингвистика становится все более экспериментальной. Требование корректности применения статистических процедур заставляется отбрасывать часть материала, искажая структуру объекта. Статистика изучает варьирующийся признак, например, длину предложения: одно, два, три и т.д. слов в предложении – градации признака «длина». Лингв. признаки могут быть
количественные, т.е. сопоставляться с определенной мерой: число морфем в слове, высота основного тона)
качественные: например, активный / пассивный залог; ударность(можно задать 3 градации – ударный, безударный, полуударный), можно исследовать только одну характеристику – частоту встречаемости градаций этих признаков
ветвящиеся – с ними возникает проблема, например, признак «ритмическая структура слова» - ветвящийся признака, потому что прежде всего это длина слова, а потом – место ударного слога.
Если мы хотим по наблюдениям над выборкой сделать какое-то заключение о генеральной совокупности, то выборка должна достаточно четко представлять генеральную совокупность. В случае количественной выборки, она должна позволять сделать какое-то заключение о генеральных параметрах с заданной точностью. Качественная достоверность выборки устанавливается, если структура выборки повторяет структуру генеральной совокупности. Когда структура известна, точнее известны факторы, влияющие на изучаемый параметр, выборку строят в соответствии с этими распределениями. Если генеральная структура выборки неизвестна, то выборку строят по случайному закону, т.е. с помощью любого датчика случайных чисел.
Построение распределения необходимо для выявления его формы, напр. определения типы языка при дешифровке. Генеральная совокупность в статистике – множество объектов, организованных не просто по изучаемому признаку, а обязательно по однородному признаку.
Дешифровка - это исследование сообщений или текстов для обнаружения информации, представленной способом, не известным исследователю. Объектами лингвистической дешифровки являются тексты на языках каких-л. народов или записи иных знаковых систем: ноты, картографические документы, математические формулы. Но ни изучение нуклеотидных цепей, ни медицинская диагностика, ни работа детектива не являются лингвистической дешифровкой. Лингвистическая дешифровка включает в себя исследование исторических письмен и чтение тайнописи (криптограмм). В первом случае непонятность текста исследователю обусловлена разрывом традиции, во 2 – специальными усилиями, предпринятыми автором или шифровальщиком, чтобы сузить круг адресатов. В текстах, записанных шифрами и кодами, основанными на замене элементов текста другими, заранее обусловленными, сохраняются естественные закономерности построения языка.
Шифр имеет в качестве «означаемого», или номинанта, звук или элемент письменности данного языка. Например, простейшим шифром является обозначение каждой буквы алфавита ее порядковым номером. обозначающее в это шифре – двузначное число, номинант – буква русского алфавита, порядковый номер которой обозначен этим числом: а-01, б-02…В отличие от шифра код имеет обозначаемое в прямом смысле, т.е. представляет собой условное означаемое для существующего в кодируемом языке значения. Примером может служит «офенский язык», жаргон бродячих торговцев центральной России 19-20 вв: «Обтыривай маз! Дулец-то яманный!» - говорил коробейник своему напарнику и тот понимал: «Обвешивай, приятель! Мужик-то простоват!» Этот код развился как социальный диалект русского языка. Кодированию, замене подверглись только элементы, несущие лексическое значение, а грамматические и словообразовательные морфемы остались русские.
Задачи, решаемые криптографией и дешифровкой исторических систем письма, почти противоположны, и методы первой могут весьма ограниченно применяться во второй. В криптографии предполагается, что исходный, незакодированный текст написан на известном языке, причем обычно либо этот язык хорошо известен, либо круг кандидатов на эту роль из числа хорошо известных языков весьма невелик. Цель криптографии состоит в восстановлении исходного текста по зашифрованному тексту, в котором всякого рода статические распределения элементов текста могут очень сильно отличаться от соответствующих распределений элементов в исходном тексте.
При дешифровке исторических систем письма неизвестен язык, на котором написан текст, но сам текст не подвергался специальной обработке, имеющей целью затруднить чтение текста; текст записан в соответствии с нормами орфографии данного языка. В конце 50-х годов специалисты в области дешифровки исторических систем письма стали придавать большое значение машинной обработке изучаемых текстов - "машинная дешифровка". Использование вычислительной техники при дешифровке позволяет осуществить очень громоздкую обработку: Разбивка нерасчлененного текста на блоки, составление прямых и обратных словарей, выявление формальной грамматики. Неизвестный текст вводится в вычислительную машину в цифровой транскрипции, которая составляется вручную.
Основным методом изучения неизвестных текстов считают позиционную статистику. Обычно при дешифровке широко используются такие простые статистические методы, как составление частот знаков алфавита, частотные словари и т. п., т. е. такие приемы, которые дают частотные характеристики знаков, морфем, словоформ в тексте, не связывая частотные характеристики со структурой текста. Под позиционной статистикой текста понимают частотные характеристики, которые связывают единицы текста с некоторой структурой текста, с положением, занимаемым этими единицами в тексте. Такого рода частотные характеристики позволяют выяснить закономерности, имеющиеся между различными элементами текста. Например, на основе частот знаков текста в зависимости от положения можно выявить характерные позиции знака внутри слова (инициальная, медиальная, финальная) и наметить подходы для выявления морфологии. Можно аналогичным образом исследовать сочетаемость морфем между собой, выявить закономерности сочетания слов внутри предложения. Это возможно потому, что текст рассматривается как структура связей, действующих для близких элементов. Для текстов малых объемов позиционная статистика становится единственным способом получения надежной информации о структуре текста.
Согласно методике дешифровки, предложенной Ю.В. Кнорозовым, предполагается, что неизвестный текст записан на некотором, пока для нас неизвестном, но естественном языке, не подвергался специальным преобразованиям типа зашифровки с целью затруднить чтение этого текста. Предполагается, что в тексте существует определенная структура связей, причем для большинства случаев связи в тексте проявляются на небольшом расстоянии и близкие по тексту элементы находятся в некотором соотношении. Поэтому основной метод - позиционная статистика.
Описание этапов:
Разбиение непрерывного текста (написанного без пробелов) на отдельные блоки, соответствующие в основном словоформа на основе выделения в тексте устойчивые знакосочетаний. Если знаешь направление письма, а его часто подсказывает ориентация знаков, и видишь, что он разделен на блоки, можно ввести своего рода систему координат. Это значит, что позицию каждого блока можно определить по отношению к началу текста, а позицию отдельного знака в блоке - по отношению к началу и концу данного блока.
Следующая задача - анализ морфологии слова. В эту задачу входят разбиение каждого блока на отдельные части и классификация их с целью выделения постоянных и переменных частей, соответствующих корневым и служебным морфемам. Важной и необходимой задачей, сходной с предыдущей, является выяснение структуры предложения. На основе полученных данных можно ставить задачу о выявлении классов блоков как по морфологической, так и по синтаксической структуре. Затем, используя и факты сравнительного языкознания, и дополнительные внетекстовые данные (археологических, исторических, филологических и иных сведений), нужно конкретизировать грамматику неизвестного языка и только затем переходить к изучению смысла текста.
При исследовании как структуры словоформы, применяется прием "окружения": для каждого элемента текста указываются группы из n элементов текста, которые "окружают" в тексте слева и справа исследуемый элемент. Такие окружения позволяют выявить связи между исследуемым элементом и другими "близкими к нему" частями текста.
Комбинаторный метод вкл. как дешифровку изнутри (анализ комбинаций языковых элементов), так и дешифровку «извне» (привлечение данных разного характера: место находки надписи, предмет, на кот. она нанесена, сопровождающие изображения, сведения о народе и их соседях)
Атрибуция, то же, что авторизация – установление принадлежности анонимного произведения или в случае мистификации. В широком смысле А. – соотнесение тексту соотв. атрибутов, к кот. причисляются имя создателя, жанр, время и место создания. Текст, авторство кот. подлежит определению наз. анонимным. Если автор ставит свое имя под чужим произведением, говорят о плагиате. Иногда автор выпускает произведение под псевдонимом.
Проблема установления авторства (атрибуции) анонимных и псевдонимных статей давно перестала быть задачей филологии. В настоящее время решение этой задачи связано со многими как прикладными историко-филологическими дисциплинами, так и с широким кругом естественно-технических наук, таких как статистика и теория вероятностей, теория коммуникаций и др. Естественно, что с развитием вычислительной техники, появилась возможность использовать более эффективные методы для решения этой проблемы, учитывая различные лингвостатистические параметры. Основная цель формально-количественных методов – придать процессу атрибуции более объективный характерр.
Формально-количественные методы связаны с анализом синтаксических структур, сочетаний грамматических классов, длины предложения, насыщенности словаря. Например, задачей исследования является установление авторства Пряникова некоторых статей или же наоборот, отклонение гипотезы о том, что автором спорных статей является Пряников. Для этого необходимо, во-первых, определить формально-грамматические признаки стиля Пряникова; во-вторых, сравнить установленный инвариант с грамматическими параметрами исследуемых анонимных статей. Методики проведения анализа могут строиться, например, на основе распределения частей речи на первых трех и последних трех позициях предложений. При помощи специальных программ из базы данных произведений для каждой статьи получают частотные таблицы частей речи для указанных позиций предложения. Однако прежде чем использовать те или иные формальные характеристики для атрибуции текста, необходимо выявить подсознательные особенности языка автора, т. е. элементы авторской манеры, присутствующие непременно в его любом тексте. Причем желательно найти такие характеристики, которые можно выделить у любого автора, но значения этих характеристик отличались бы у разных авторов. Также следует определить инварианты для всех текстов конкретного жанра, независимо от авторства.
Области применения:
В последнее время задача установления авторства текста приобретает все большее значение и для криминалистики. Типичная задача - идентификация автора анонимного текста по его языковым параметрам (определение авторства различных анонимных писем, содержащих угрозы, шантаж).
Лингвистическая экспертиза важна при решении споров, связанных с политическими проблемами. Анонимная или псевдоанонимная информация все чаще распространяется во время предвыборных кампаний с целью дискредитации конкурентов. В связи с развитием электронных сетей и увеличением информации, распространяемой с их помощью, обостряется проблема соблюдения авторских прав.
В юридической психолингвистике сложилось направление, связанное с лингвистическими методами идентификации личности по анонимному тексту. Общий метод заключается в том, чтобы на основе исследования формальных (лингвистических, текстовых) и неформальных (содержательных, смысловых) характеристик текста определить отдельные психологические черты человека, если возможно, то его полный психологический портрет.
Конкретные разработки:
К настоящему времени существует программный комплекс «Атрибуция» для лингвистического анализа, позволяющий в диалоговом режиме проводить грамматический и синтаксический разборы литературных текстов, используя многочисленные лингвистические характеристики, например, такие как часть речи, падеж, род, число, тип предложения и т.д. Программный комплекс состоит из двух частей: модуль «Грамматический анализ» и модуль «Синтаксический анализ». Они позволяют формализовать 69 лингвистических параметров. Принципы работы обоих модулей одинаковы: входной информацией является литературный текст в электронном виде. Каждый модуль первоначально выделяет целое предложение, а затем позволяет работать с каждым словом предложения, предлагая в простых ситуациях (например, союзы) свой вариант значений, но решающим правом на принятие решения обладает пользователь, который, несомненно, должен являться специалистом-филологом. На выходе получается структурированный в виде таблицы, файл с полным синтаксическим или грамматическим разбором. Модуль «Грамматический анализ» ориентирован на выделение таких лингвистических параметров как, например: часть речи, падеж, число, род и т.п. Общее число параметров равно 46.
В модуле «Синтаксический анализ» анализируется структура и грамматическое значение синтаксических единиц и определяется тип конструкции. Список параметров содержит: Тип предложения (повествовательное, восклицательное, вопросительное), Часть речи для подлежащего, Количество членов для сказуемого
При помощи этого программного комплекса обработана 31 статья Ф.М. Достоевского.
7. Стилеметрия. Речевые стили и вероятностные характеристики единиц различных уровней языка.
8. Количественный анализ художественных текстов.
9. Типологический анализ языков и диалектов количественными методами.
10. Проблемы количественных методов атрибуции текста. Возможности и ограничения количественной атрибуции текстов, организация выборок, аспекты сопоставления, вероятностная природа выводов.
Авторизация/атрибуция текста. Проблема авторизации текста относится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» — стилеметрии. Авторизация включает как литературную, так и лингвистическую составляющую. Чисто филологическое направление авторизации не позволяет построить объективные операциональные критерии анализа и атрибуции текста (разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы). Особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.
В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основания авторизации могут быть различны, но использование количественных методов анализа оказывается неизбежным. Одно из перспективных направлений в этой области — привлечение к авторизации текста теории распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров — средняя длина предложения, количество вложенных синтаксических структур, количество слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты которого задаются значениями выбранных параметров. Сходство векторов определяет и сходство стилей.
Одна из наиболее распространенных областей использования знаний о статистических закономерностях языковых явлений — экспертиза авторства текста. Типологически можно представить следующие базовые ситуации экспертного анализа.
A. Множественная неопределенность. Имеется множество текстов или их фрагментов. Необходимо установить, скольким авторам принадлежат тексты, и атрибутировать каждый текст конкретному автору. Это, разумеется, наиболее сложный случай анализа.
Б. Сравнение по образцу. Имеется пример текста (текстов) некоторого автора X. Необходимо установить, является ли он и автором некоторого другого текста (текстов).
B. Конкуренция образцов. Имеются образцы текстов авторов X,Y,Z... . Необходимо установить, кто из них является автором текстов Т1,Т2,... ,Тn
Автороведческая экспертиза — исследование текста (чаще всего — печатного) с целью установления авторства либо получения сведений об авторе.
Предметом автороведческой экспертизы является текст. В качестве текста могут выступать, по отдельности либо в совокупности, различные записи (например, дневниковые), письма, официальные документы, литературные произведения, тексты публичных выступлений и т. д. В отличие от почерковедческой экспертизы, объектом исследования является не графическое исполнение текста, а само его содержание.
Задачи экспертизы разделяются на две группы:
Идентификационные — проверка авторства. Подтверждение авторства определённого лица. Исключение авторства определённого лица. Проверка того, что автором всего текста был один и тот же человек. Проверка того, что исполнитель текста является одновременно его автором. Идентификационные задачи автороведческой экспертизы решаются в тех случаях, когда требуется подтвердить или опровергнуть авторство определённого лица (лиц) по отношению к тому или иному тексту, причём предполагаемый автор текста известен и непосредственно доступен. Наиболее очевидные примеры — доказательство или опровержение факта литературного плагиата и доказательство авторства в делах, связанных с правами на литературные произведения.
Диагностические. Определение личностных характеристик автора, таких как: Образовательный уровень. Область деятельности, профессия, хобби. Пол, возраст, социальное положение, национальность и прочие социальные характеристики. Наличие навыков определённого стиля письменной речи. Определение факта сознательного искажения письменной речи.
Диагностические задачи экспертиза решает в тех случаях, когда необходимо установить неизвестного автора имеющегося в наличии текста, например, определить автора анонимного письма или подложного документа. В этих случаях сопоставить исследуемый текст с текстами автора, как правило, невозможно, и экспертиза заключается в выявлении на основании текста личностных характеристик автора, знание которых позволит ограничить круг лиц, подлежащих проверке уже другими методами.
Методы. Она базируется на представлении, что для каждого человека характерен уникальный комплекс особенностей речевого поведения, который может быть опознан и использован для идентификации и диагностики. Вся совокупность методов экспертизы направлена на выделение этих особенностей, их описание и сравнение. Методы автороведческой экспертизы исследуют анализируемый текст на четырёх уровнях: пунктуационном, орфографическом, синтаксическом, лексико-фразеологическом, стилистическом.
Пунктуационный — особенности употребления автором знаков препинания, характерные ошибки. Орфографический — характерные ошибки в написании слов. Синтаксический — особенности построения предложений, предпочтение тех или иных языковых конструкций, употребление времён, активного или пассивного залога, порядок слов, характерные синтаксические ошибки. Лексико-фразеологический — словарный запас автора, особенности использования слов и выражений, склонность к употреблению редких и иностранных слов, диалектизмов, архаизмов, неологизмов, профессионализмов, арготизмов и так далее. Сюда же относятся навыки употребления фразеологизмов, пословиц, поговорок, «крылатых выражений». Стилистический — жанр, общая структура текста, для литературных произведений — сюжет, характерные изобразительные средства (метафора, ирония, аллегория, гипербола, сравнение), стилистические фигуры (градация, антитеза, риторический вопрос и так далее), другие характерные речевые приёмы.
Существует достаточно много методов анализа стиля. В целом можно разделить их на две большие группы - экспертные и формальные. Первые предполагают исследование текста профессиональным лингвистом-экспертом, который выделит характерные особенности проверяемого текста, текстов, написанных предполагаемым автором, если они доступны, и на основании их изучения вынесет заключение. Вторые основаны на сравнении некоторых, формально вычислимых, характеристик текстов.