
- •Основы прикладной лингвистики
- •Раздел I. Введение
- •Раздел II. Автоматическая обработка текста (аот)
- •Фонетика и графика
- •Морфология (морфонализ)
- •Синтаксис
- •Cемантика
- •100.000 Словоупотреблений. Морфологическая и синтаксическая разметка.
- •Атрибуция текста
- •4 Методики:
- •Автоматическая проверка правописания
100.000 Словоупотреблений. Морфологическая и синтаксическая разметка.
Руководитель проекта – проф. Арто Мустайоки, координатор – Михаил Копотев.
Корпус небольшой, зато качественный.
(http://www.slav.helsinki.fi/hanco/)
Русские проекты
Корпус газетных текстов, созданный под рук-вом А. А. Поликарпова (МГУ, филологический факультет,
лаб. общей и компьютерной лексикографии).
Около 205.000 словоупотреблений. Ориентация на 1 млн.
Выставлен на сайте лаборатории.
Еще один проект лаборатории © МГУ, 2006
Корпус «Поэзия и драматургия
А. С. Пушкина»
и «Путеводитель по Пушкину»
Текстовые единицы размечены информацией 15 типов: «Дата», «Адресаты», «Варианты слов», «Персонажи и лица», «Цвето- и светообозначения» и т.д.
Корпус русского литературного языка (СПбГУ + ИЛИ РАН)
Предварительная версия: ок. 1 млн словоупотреблений. 18 текстов объемом от 105 до 13700 словоупотреблений, принадлежащих 180 авторам. В текстах все словоформы несут знак ударения; везде, где это необходимо, используется буква «ё». В перспективе предполагается довести объем Корпуса до 100 –150 млн словоупотреблений.
Корпус русского ЛЯ: www.narusco.ru
Тексты – основа КРЛЯ
Беллетристика – 69 наименований Публицистика – 225 наименований Драматургия – 47 наименований Научно–популярная – 38 наименований
Проект «Рукописные памятники Древней Руси»
Берестяные грамоты, летописи
http://gramoty.ru
Корпус русских публиц. текстов второй пол. 19 в.
Петрозаводский госуниверситет
http://smalt.karelia.ru/corpus/
Источники материала: электронные библиотеки
Самое известное русское собрание – библиотека Максима Мошкова.
(www.lib.ru)
Там же можно найти множество ссылок на др. библиотеки.
aot.ru: поиск по библиотеке Мошкова
поиск без снятой омонимии, но объем корпуса таков, что он может быть полезен для пользователя.
Проблемы КЛ
Плохое качество электронных текстов.
Существует желание сделать большой и качественный корпус, но…
Существует также желание при жизни завершить работу.
Создание корпуса и конкретный проект. Проблема универсальности корпуса.
Атрибуция текста
Введение в проблему
Введение. Термины-синонимы
атрибуция = авторизация = установление авторства анонимного текста (или текста с мистифицированным авторством)
В шир. смысле – приписывание тексту атрибутов (не только авторства, но и времени и места создания, жанра и проч.).
Результаты атрибуции
Текст принадлежит автору Х
Текст не принадлежит автору Х
Текст, вероятней всего, принадлежит автору Х
Текст может принадлежать автору Х
Проблема оценки вероятности
Аспекты проблемы
текстологический
криминалистический
Проблемы авторства литературных произведений
древнерусские литературные памятники
литература XIX в. (например, нек. стихотворения Пушкина и «Гавриилиада»
Проблемы авторства: ХХ в.
Проблемы авторства: ХХ в.
2. История вопроса
Этапы и методология атрибуции художественного текста
ХХ в.: развитие проблемы
Постановка проблемы: Н. А Морозов, «формальная» школа (Б. Томашевский, Ю. Тынянов, Б. Эйхенбаум)
«Объективно-исторический» подход (В. В. Виноградов, Д. С. Лихачев)
Современные направления (широкое использование квантитативных методов)
Приемы атрибуции
1) извлечение смысловой информации из содержания текста, словаря автора, референциальной среды
2) извлечение смысловой информации из «формы» текста
Свои достоинства и недостатки!
1) из содержания текста
документально-фактологический материал
сравнение проблематики, сюжета и тематики с текстами-образцами
совпадение/несовпадение семантики и формы мелких сегментов (избирательно-стилистический подход)
Ненадежность «содержательных» методов
Возможность авторской мистификации, стилизации
Затруднительность количественной оценки
! Зато именно документально-фактологические признаки опредлеляют бесспорность авторства основного количества произведений.
2) из формы текста
палеографический и графологический анализ
квантитативно-лингвистические методы
! ряд преимуществ перед историко-литературными методами, строящимися обычно на ряде допущений, надежность которых часто бывает сомнительной.
Квантитативные методы
Сопоставление стилевых параметров сомнительного текста с аналогичными характеристиками текстов-образцов
Уровни текста от графики/фонетики до композиции. Центральный уровень – лексический.
Лексическая статистика.
Примеры квантитативных методов
Н. А. Морозов (1915 г.):
идея «лингвистических спектров».
Изучение частотности служебных слов в классических текстах.
Частные наблюдения Морозова
Частица “было” (например, чуть было) - только у Пушкина; “близ” - только у Тургенева (у других “около”); “ведь” - отсутствует у Карамзина и Загоскина; “вдруг” и “даже” редки у Толстого; “еле” - только у Гоголя; “заместо”- только у Тургенева; “ибо”- еще употребляется часто Карамзиным и Гоголем, изредка Пушкиным, но уже совсем отсутствует у Толстого, Тургенева и Загоскина и т.п.
Спектры
Предлоги В, НА, С
в произведениях Пушкина
Спектры
Предлоги В, НА, С
в произведениях Гоголя
Развитие лингвистической теории, информатики, корпусной лингвистики и др. направлений в ХХ в. привело к появлению большого количества новых методик атрибуции текста.
Современные исследования
Большое количество авторов и направлений, в том числе использующих квантитативно-лингвистические методы
Важно!
Найти характеристики текста, которые вряд ли мог учитывать автор.
А. Л. Гришунин: анализ дублетных яз. средств (нежели – чем, надо –надобно, деепричастия на -в и -вши и проч.).
Г. В. Ермоленко (Анонимные произведения и их авторы. Минск, 1988).