Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Otvety_po_prikl_lingv.doc
Скачиваний:
7
Добавлен:
01.04.2025
Размер:
475.14 Кб
Скачать

6. Квантитативная (количественная) лингвистика, ее лингвистические и математические основания. Структурно-вероятностная модель языка и ее приложения.

Квантитативная лингвистика: дешифровка текста, авторизация текста.

Статистическая обработка экспериментальных данных

Современная лингвистика становится все более экспериментальной. Требование корректности применения статистических процедур заставляется отбрасывать часть материала, искажая структуру объекта. Статистика изучает варьирующийся признак, например, длину предложения: одно, два, три и т.д. слов в предложении – градации признака «длина». Лингв. признаки могут быть

  • количественные, т.е. сопоставляться с определенной мерой: число морфем в слове, высота основного тона)

  • качественные: например, активный / пассивный залог; ударность(можно задать 3 градации – ударный, безударный, полуударный), можно исследовать только одну характеристику – частоту встречаемости градаций этих признаков

  • ветвящиеся – с ними возникает проблема, например, признак «ритмическая структура слова» - ветвящийся признака, потому что прежде всего это длина слова, а потом – место ударного слога.

Если мы хотим по наблюдениям над выборкой сделать какое-то заключение о генеральной совокупности, то выборка должна достаточно четко представлять генеральную совокупность. В случае количественной выборки, она должна позволять сделать какое-то заключение о генеральных параметрах с заданной точностью. Качественная достоверность выборки устанавливается, если структура выборки повторяет структуру генеральной совокупности. Когда структура известна, точнее известны факторы, влияющие на изучаемый параметр, выборку строят в соответствии с этими распределениями. Если генеральная структура выборки неизвестна, то выборку строят по случайному закону, т.е. с помощью любого датчика случайных чисел.

Построение распределения необходимо для выявления его формы, напр. определения типы языка при дешифровке. Генеральная совокупность в статистике – множество объектов, организованных не просто по изучаемому признаку, а обязательно по однородному признаку.

Дешифровка - это исследование сообщений или текстов для обнаружения информации, представленной способом, не известным исследователю. Объектами лингвистической дешифровки являются тексты на языках каких-л. народов или записи иных знаковых систем: ноты, картографические документы, математические формулы. Но ни изучение нуклеотидных цепей, ни медицинская диагностика, ни работа детектива не являются лингвистической дешифровкой. Лингвистическая дешифровка включает в себя исследование исторических письмен и чтение тайнописи (криптограмм). В первом случае непонятность текста исследователю обусловлена разрывом традиции, во 2 – специальными усилиями, предпринятыми автором или шифровальщиком, чтобы сузить круг адресатов. В текстах, записанных шифрами и кодами, основанными на замене элементов текста другими, заранее обусловленными, сохраняются естественные закономерности построения языка.

Шифр имеет в качестве «означаемого», или номинанта, звук или элемент письменности данного языка. Например, простейшим шифром является обозначение каждой буквы алфавита ее порядковым номером. обозначающее в это шифре – двузначное число, номинант – буква русского алфавита, порядковый номер которой обозначен этим числом: а-01, б-02…В отличие от шифра код имеет обозначаемое в прямом смысле, т.е. представляет собой условное означаемое для существующего в кодируемом языке значения. Примером может служит «офенский язык», жаргон бродячих торговцев центральной России 19-20 вв: «Обтыривай маз! Дулец-то яманный!» - говорил коробейник своему напарнику и тот понимал: «Обвешивай, приятель! Мужик-то простоват!» Этот код развился как социальный диалект русского языка. Кодированию, замене подверглись только элементы, несущие лексическое значение, а грамматические и словообразовательные морфемы остались русские.

Задачи, решаемые криптографией и дешифровкой исторических систем письма, почти противоположны, и методы первой могут весьма ограниченно применяться во второй. В криптографии предполагается, что исходный, незакодированный текст написан на известном языке, причем обычно либо этот язык хорошо известен, либо круг кандидатов на эту роль из числа хорошо известных языков весьма невелик. Цель криптографии состоит в восстановлении исходного текста по зашифрованному тексту, в котором всякого рода статические распределения элементов текста могут очень сильно отличаться от соответствующих распределений элементов в исходном тексте.

При дешифровке исторических систем письма неизвестен язык, на котором написан текст, но сам текст не подвергался специальной обработке, имеющей целью затруднить чтение текста; текст записан в соответствии с нормами орфографии данного языка. В конце 50-х годов специалисты в области дешифровки исторических систем письма стали придавать большое значение машинной обработке изучаемых текстов - "машинная дешифровка". Использование вычислительной техники при дешифровке позволяет осуществить очень громоздкую обработку: Разбивка нерасчлененного текста на блоки, составление прямых и обратных словарей, выявление формальной грамматики. Неизвестный текст вводится в вычислительную машину в цифровой транскрипции, которая составляется вручную.

Основным методом изучения неизвестных текстов считают позиционную статистику. Обычно при дешифровке широко используются такие простые статистические методы, как составление частот знаков алфавита, частотные словари и т. п., т. е. такие приемы, которые дают частотные характеристики знаков, морфем, словоформ в тексте, не связывая частотные характеристики со структурой текста. Под позиционной статистикой текста понимают частотные характеристики, которые связывают единицы текста с некоторой структурой текста, с положением, занимаемым этими единицами в тексте. Такого рода частотные характеристики позволяют выяснить закономерности, имеющиеся между различными элементами текста. Например, на основе частот знаков текста в зависимости от положения можно выявить характерные позиции знака внутри слова (инициальная, медиальная, финальная) и наметить подходы для выявления морфологии. Можно аналогичным образом исследовать сочетаемость морфем между собой, выявить закономерности сочетания слов внутри предложения. Это возможно потому, что текст рассматривается как структура связей, действующих для близких элементов. Для текстов малых объемов позиционная статистика становится единственным способом получения надежной информации о структуре текста.

Согласно методике дешифровки, предложенной Ю.В. Кнорозовым, предполагается, что неизвестный текст записан на некотором, пока для нас неизвестном, но естественном языке, не подвергался специальным преобразованиям типа зашифровки с целью затруднить чтение этого текста. Предполагается, что в тексте существует определенная структура связей, причем для большинства случаев связи в тексте проявляются на небольшом расстоянии и близкие по тексту элементы находятся в некотором соотношении. Поэтому основной метод - позиционная статистика.

Описание этапов:

Разбиение непрерывного текста (написанного без пробелов) на отдельные блоки, соответствующие в основном словоформа на основе выделения в тексте устойчивые знакосочетаний. Если знаешь направление письма, а его часто подсказывает ориентация знаков, и видишь, что он разделен на блоки, можно ввести своего рода систему координат. Это значит, что позицию каждого блока можно определить по отношению к началу текста, а позицию отдельного знака в блоке - по отношению к началу и концу данного блока.

Следующая задача - анализ морфологии слова. В эту задачу входят разбиение каждого блока на отдельные части и классификация их с целью выделения постоянных и переменных частей, соответствующих корневым и служебным морфемам. Важной и необходимой задачей, сходной с предыдущей, является выяснение структуры предложения. На основе полученных данных можно ставить задачу о выявлении классов блоков как по морфологической, так и по синтаксической структуре. Затем, используя и факты сравнительного языкознания, и дополнительные внетекстовые данные (археологических, исторических, филологических и иных сведений), нужно конкретизировать грамматику неизвестного языка и только затем переходить к изучению смысла текста.

При исследовании как структуры словоформы, применяется прием "окружения": для каждого элемента текста указываются группы из n элементов текста, которые "окружают" в тексте слева и справа исследуемый элемент. Такие окружения позволяют выявить связи между исследуемым элементом и другими "близкими к нему" частями текста.

Комбинаторный метод вкл. как дешифровку изнутри (анализ комбинаций языковых элементов), так и дешифровку «извне» (привлечение данных разного характера: место находки надписи, предмет, на кот. она нанесена, сопровождающие изображения, сведения о народе и их соседях)

Атрибуция, то же, что авторизация – установление принадлежности анонимного произведения или в случае мистификации. В широком смысле А. – соотнесение тексту соотв. атрибутов, к кот. причисляются имя создателя, жанр, время и место создания. Текст, авторство кот. подлежит определению наз. анонимным. Если автор ставит свое имя под чужим произведением, говорят о плагиате. Иногда автор выпускает произведение под псевдонимом.

Проблема установления авторства (атрибуции) анонимных и псевдонимных статей давно перестала быть задачей филологии. В настоящее время решение этой задачи связано со многими как прикладными историко-филологическими дисциплинами, так и с широким кругом естественно-технических наук, таких как статистика и теория вероятностей, теория коммуникаций и др. Естественно, что с развитием вычислительной техники, появилась возможность использовать более эффективные методы для решения этой проблемы, учитывая различные лингвостатистические параметры. Основная цель формально-количественных методов – придать процессу атрибуции более объективный характерр.

Формально-количественные методы связаны с анализом синтаксических структур, сочетаний грамматических классов, длины предложения, насыщенности словаря. Например, задачей исследования является установление авторства Пряникова некоторых статей или же наоборот, отклонение гипотезы о том, что автором спорных статей является Пряников. Для этого необходимо, во-первых, определить формально-грамматические признаки стиля Пряникова; во-вторых, сравнить установленный инвариант с грамматическими параметрами исследуемых анонимных статей. Методики проведения анализа могут строиться, например, на основе распределения частей речи на первых трех и последних трех позициях предложений. При помощи специальных программ из базы данных произведений для каждой статьи получают частотные таблицы частей речи для указанных позиций предложения. Однако прежде чем использовать те или иные формальные характеристики для атрибуции текста, необходимо выявить подсознательные особенности языка автора, т. е. элементы авторской манеры, присутствующие непременно в его любом тексте. Причем желательно найти такие характеристики, которые можно выделить у любого автора, но значения этих характеристик отличались бы у разных авторов. Также следует определить инварианты для всех текстов конкретного жанра, независимо от авторства.

Области применения:

В последнее время задача установления авторства текста приобретает все большее значение и для криминалистики. Типичная задача - идентификация автора анонимного текста по его языковым параметрам (определение авторства различных анонимных писем, содержащих угрозы, шантаж).

Лингвистическая экспертиза важна при решении споров, связанных с политическими проблемами. Анонимная или псевдоанонимная информация все чаще распространяется во время предвыборных кампаний с целью дискредитации конкурентов. В связи с развитием электронных сетей и увеличением информации, распространяемой с их помощью, обостряется проблема соблюдения авторских прав.

В юридической психолингвистике сложилось направление, связанное с лингвистическими методами идентификации личности по анонимному тексту. Общий метод заключается в том, чтобы на основе исследования формальных (лингвистических, текстовых) и неформальных (содержательных, смысловых) характеристик текста определить отдельные психологические черты человека, если возможно, то его полный психологический портрет.

Конкретные разработки:

К настоящему времени существует программный комплекс «Атрибуция» для лингвистического анализа, позволяющий в диалоговом режиме проводить грамматический и синтаксический разборы литературных текстов, используя многочисленные лингвистические характеристики, например, такие как часть речи, падеж, род, число, тип предложения и т.д. Программный комплекс состоит из двух частей: модуль «Грамматический анализ» и модуль «Синтаксический анализ». Они позволяют формализовать 69 лингвистических параметров. Принципы работы обоих модулей одинаковы: входной информацией является литературный текст в электронном виде. Каждый модуль первоначально выделяет целое предложение, а затем позволяет работать с каждым словом предложения, предлагая в простых ситуациях (например, союзы) свой вариант значений, но решающим правом на принятие решения обладает пользователь, который, несомненно, должен являться специалистом-филологом. На выходе получается структурированный в виде таблицы, файл с полным синтаксическим или грамматическим разбором. Модуль «Грамматический анализ» ориентирован на выделение таких лингвистических параметров как, например: часть речи, падеж, число, род и т.п. Общее число параметров равно 46.

В модуле «Синтаксический анализ» анализируется структура и грамматическое значение синтаксических единиц и определяется тип конструкции. Список параметров содержит: Тип предложения (повествовательное, восклицательное, вопросительное), Часть речи для подлежащего, Количество членов для сказуемого

При помощи этого программного комплекса обработана 31 статья Ф.М. Достоевского.

7. Стилеметрия. Речевые стили и вероятностные характеристики единиц различных уровней языка.

8. Количественный анализ художественных текстов.

9. Типологический анализ языков и диалектов количественными методами.

10. Проблемы количественных методов атрибуции текста. Возможности и ограничения количественной атрибуции текстов, организация выборок, аспекты сопоставления, вероятностная природа выводов.

Авторизация/атрибуция текста. Проблема авторизации текста отно­сится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» — стилеметрии. Авторизация включает как литературную, так и лингви­стическую составляющую. Чисто филологическое направление авторизации не позволяет построить объективные операциональные кри­терии анализа и атрибуции текста (разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы). Особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.

В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основа­ния авторизации могут быть различны, но использование количествен­ных методов анализа оказывается неизбежным. Одно из перспективных направлений в этой области — привлечение к авторизации текста тео­рии распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров — средняя длина предложения, количество вложенных синтаксических структур, количе­ство слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты ко­торого задаются значениями выбранных параметров. Сходство векторов определяет и сходство стилей.

Одна из наиболее распространенных областей использования зна­ний о статистических закономерностях языковых явлений — экспертиза авторства текста. Типологически можно представить следующие базовые ситуации экспертного анализа.

A. Множественная неопределенность. Имеется множество текстов или их фрагментов. Необходимо установить, скольким авторам принадлежат тексты, и атрибутировать каждый текст конкретному автору. Это, разумеется, наиболее сложный случай анализа.

Б. Сравнение по образцу. Имеется пример текста (текстов) некоторого автора X. Необходимо установить, является ли он и автором некоторого другого текста (текстов).

B. Конкуренция образцов. Имеются образцы текстов авторов X,Y,Z... . Необходимо установить, кто из них является автором текстов Т12,... ,Тn

Автороведческая экспертиза — исследование текста (чаще всего — печатного) с целью установления авторства либо получения сведений об авторе.

Предметом автороведческой экспертизы является текст. В качестве текста могут выступать, по отдельности либо в совокупности, различные записи (например, дневниковые), письма, официальные документы, литературные произведения, тексты публичных выступлений и т. д. В отличие от почерковедческой экспертизы, объектом исследования является не графическое исполнение текста, а само его содержание.

Задачи экспертизы разделяются на две группы:

Идентификационные — проверка авторства. Подтверждение авторства определённого лица. Исключение авторства определённого лица. Проверка того, что автором всего текста был один и тот же человек. Проверка того, что исполнитель текста является одновременно его автором. Идентификационные задачи автороведческой экспертизы решаются в тех случаях, когда требуется подтвердить или опровергнуть авторство определённого лица (лиц) по отношению к тому или иному тексту, причём предполагаемый автор текста известен и непосредственно доступен. Наиболее очевидные примеры — доказательство или опровержение факта литературного плагиата и доказательство авторства в делах, связанных с правами на литературные произведения.

Диагностические. Определение личностных характеристик автора, таких как: Образовательный уровень. Область деятельности, профессия, хобби. Пол, возраст, социальное положение, национальность и прочие социальные характеристики. Наличие навыков определённого стиля письменной речи. Определение факта сознательного искажения письменной речи.

Диагностические задачи экспертиза решает в тех случаях, когда необходимо установить неизвестного автора имеющегося в наличии текста, например, определить автора анонимного письма или подложного документа. В этих случаях сопоставить исследуемый текст с текстами автора, как правило, невозможно, и экспертиза заключается в выявлении на основании текста личностных характеристик автора, знание которых позволит ограничить круг лиц, подлежащих проверке уже другими методами.

Методы. Она базируется на представлении, что для каждого человека характерен уникальный комплекс особенностей речевого поведения, который может быть опознан и использован для идентификации и диагностики. Вся совокупность методов экспертизы направлена на выделение этих особенностей, их описание и сравнение. Методы автороведческой экспертизы исследуют анализируемый текст на четырёх уровнях: пунктуационном, орфографическом, синтаксическом, лексико-фразеологическом, стилистическом.

Пунктуационный — особенности употребления автором знаков препинания, характерные ошибки. Орфографический — характерные ошибки в написании слов. Синтаксический — особенности построения предложений, предпочтение тех или иных языковых конструкций, употребление времён, активного или пассивного залога, порядок слов, характерные синтаксические ошибки. Лексико-фразеологический — словарный запас автора, особенности использования слов и выражений, склонность к употреблению редких и иностранных слов, диалектизмов, архаизмов, неологизмов, профессионализмов, арготизмов и так далее. Сюда же относятся навыки употребления фразеологизмов, пословиц, поговорок, «крылатых выражений». Стилистический — жанр, общая структура текста, для литературных произведений — сюжет, характерные изобразительные средства (метафора, ирония, аллегория, гипербола, сравнение), стилистические фигуры (градация, антитеза, риторический вопрос и так далее), другие характерные речевые приёмы.

Существует достаточно много методов анализа стиля. В целом можно разделить их на две большие группы - экспертные и формальные. Первые предполагают исследование текста профессиональным лингвистом-экспертом, который выделит характерные особенности проверяемого текста, текстов, написанных предполагаемым автором, если они доступны, и на основании их изучения вынесет заключение. Вторые основаны на сравнении некоторых, формально вычислимых, характеристик текстов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]