Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
прикладная.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
176.64 Кб
Скачать

4 Методики:

анализ высокочастотной лексики

анализ низкочастотной лексики

выявление речевых параллелей (дублетов) Иванович – Иваныч, дверь – двери, много лет (тому) назад, может быть – быть может

анализ покрытия текста нейтральными словами

Милов Л. В. и К° ( От Нестора до Фонвизина: Новые методы определения авторства. М., 1994)

атрибуция древнерусских лит. памятников и анонимных произведений XVII-XVIII вв.

Проведен морфологический и синтаксический анализ, выявлено порядка 150 признаков.

Милов Л. В. и К°: морфолого-синтаксические методы

построение и анализ графиков фразовых структур

выявление закономерностей между структурами

дистрибуция классов слов — существительных, прилагательных и т.д.

Выявлено порядка 150 признаков текстов

Методика Дмитрия Хмелева (лингвоанализатор)

Самый любопытный ввиду абсолютной «формальности» метод.

Буквы текста как реализация марковских цепей.

Матрица буквосочетаний.

Оценка вероятности авторства

О разной степени формализации языка

Чем больше степень формализованности метода, тем лучше он будет работать при атрибуции текста. Сравним:

Буквы и буквосочетания

Грамматические признаки слов, синтаксические конструкции

Лексемы (служебные слова/местоимения/знаменат. лексика

Элементы композиции

Свежий пример: S. Bernhardsson, L. E. Correa da Rocha and P. Minnhagen, 2009

(The meta book and size-dependent properties of written language // New Journal of Physics. 2009. № 11. )

сопоставление произведений Т. Харди, Г. Мелвилла и Д. Г. Лоренса на предмет снижения встречаемости слов, использованных автором один раз, по мере развертывания текста.

Пример из [Bernhardsson et al., 2009]

Форма и содержание

Сила таких моделей, может быть, и заключается в полном отходе от рассмотрения содержательных аспектов текста.

Вряд ли, однако, по этим графикам можно судить о семантике текстов и в целом об идиостиле Томаса Харди или Германа Мелвилла.

Атрибуция «Тихого Дона» и др. произведений Шолохова

Шолоховеды и «антишолоховеды»: история вопроса.

Содержательные моменты и спекуляция.

Атрибуция «Тихого Дона»

Хьетсо Г. и др. Кто написал «Тихий Дон»? М., 1989.

Традиционные способы +

словарный профиль

словарный запас

дистрибуция классов слов

подсчет частотности ЧР в разных позициях в предложении

анализ самых частотных сочетаний

Другие полезные книги

Журналы Оксфордской серии, в частности

«Literary and Linguistic Computing»

Выводы

Количественные методы атрибуции самые надежные.

Слабость методов – в их зависимости от длины анализируемых текстов.

Поиск стил. характеристик, не подверженных авторской воле.

Важность временны’х характеристик текстов.

Автоматическая проверка правописания

Проверка правописания

орфокорректор

автокорректор

спеллер

спел-чекер

spell checker, spelling corrector (с функциями исправления ошибок)

Самый востребованный

WinOrfo (интегрирован в MS Office)

русскоязычная версия создана в 1997 г.

В основном построена на словнике словаря А. А. Зализняка – наследует уже обсужденные проблемы

WinOrfo разрешал (по данным Элины Константиновны Лавошниковой на 2002 г. , исправленное сегодня дано красным)

вскоре» – в скоре

подражать – подрожать

пародировать – парадировать

(пере)платить – (пере)плотить

(по)щипать – (по)щепать

халява – холява (стекл. цилиндр, голенище)

ас – асс (римская монета)

WinOrfo разрешал (по данным Э. К. Лавошниковой)

нормали зуем, детали зуя (зуй – птица)

дат чик, счастлив чик, та кой

лжи вый, пер вые (от «выя»)

придел али, запуск али («али» – союз, имя)

пот ерь, изб ерем, прим ерь (от «ерь»)

две рцы, то рцы, ста рцы (от «рцы», буква)

кассир ша, юно ша («ша» – буква и межд.)

ник уда, с удов, не удов (от «уд»)

учи теля, строи теля, зри теля, теля тина (от слова «теля»

WinOrfo разрешает (по данным Э. К. Лавошниковой)

слонять

впивать

запреть

пхать

узить

выяснеть

прообразовать

сбирать

прелагать

WinOrfo разрешает (по данным Э. К. Лавошниковой)

грам. формы деепричастий

отря

подотря

распростря

простря

падя

выгрызя

заползя

перемря

помря

умря

WinOrfo НЕ разрешает

евро

дефолт

электорат

талиб

хит

автослесарь … … …

интернет (только Интернет) и путин/Путин появились относительно недавно

Проблемы параллелей в русской и латинской графике

У у

Е е

А а

О о

С с

Р р

Н

Х х

Проблема буквы Ё

Для спеллера Орфо Е = Ё и Ё = Е

Это удобно в случаях ёж/еж, лёд/лед

Но! зёмля, рёшёниё, длинношёёё

пропускаются корректором!

Методы выявления орф. ошибок

статистический (простой) – список словоформ текста сопоставляется со списком эталонных текстов; те, что встречаются один раз, помечаются как возможно ошибочные.

полиграммный – основан на вероятности сочетаний символов в графике (гэ, йй, ъо, ьо, ъ_, жэ); использование в подсказке или в кач. дополнительного.

Методы выявления орф. ошибок

словарный – сопоставление со списком порождаемых словоформ (англ. яз.: порядка 350 тыс.;

русск. яз.: ??? миллионы словоформ

Тем не менее словарный метод оказывается наиболее действенным.

Ошибки бывают разными, как и принципы орфографии

передача буквами фонемного состава

слитно/раздельно/через дефис

прописные/строчные

правила переноса

правила графических сокращений

Разные орфограммы

требуют привлечения разноуровневого автоматического анализа: от чисто графематического (применяется везде) до (!) семантического.

А в некоторых случаях не обойтись без акцентного анализа, что само по себе невозможно (никто – некто).

Передача буквами фонем

гласные

безударные

после шипящих и Ц

Е/Э

согласные

глухие/звонкие

непроизносимые

удвоенные/неудвоенные (в том числе Н и НН)

употребление Й

Основные проблемы

омофония (остальные формы легко подаются списком); омофония и омография не только целых слов, но и их частей (случайное разбиение слов при наборе).

встречаемость малочастотных буквосочетаний (например, в аббревиатурах)

изменчивость словаря

словообразовательные, морфологические, синтаксические и семантические аспекты правил

Слитно/раздельно/дефис

дефисные написания: разные принципы

частица НЕ и приставка НЕ- (одна из самых тяжелых «загвоздок» автоматического анализа)

сложные предлоги, союзы, наречия

Прописные/строчные

Начало предложения, прямой речи

Аббревиатуры

Имена собственные (омонимия!)

Составные наименования

Относительные прил. от имен собств-х

Несистемные случаи: субъекты в юрид. документах, философские категории и т.п.

Правила переноса

В системе ОРФО поддерживается деление слова на сегменты в соответствии с принципами: морфематическим и фонетическим. Возможна вставка «мягкого переноса» пользователем. Отличие этого знака от дефиса.

Слова, отсутствующие в словнике, автоматически не разбиваются (для нек. буквосочетаний и словообразовательных моделей предусмотрена гипотетическая обработка)

Правила сокращений

Можно дать только списком.

Проблемы:

расширение словаря спеллера

трудность в соотнесении с исходными словами – и нужно ли это?

существование разных типов сокращений

Проблема диалога с пользователем

Интерфейс коррекции текста

Выбор варианта из предложенных

Работа с разорванными словами, многобуквенными орфограммами

Подключение разноуровневых операций

Др. уровни автокорректора

проверка грамматики

выявление языковых элементов, не соответствующих заданному стилю документа

Выводы

автокорректор отражает проблемы АОТ на разных уровнях текста

нерешенность проблем правописания сказывается на плохой формализованности многих правил и существовании вариантов написания одного и того же слова

следует развивать диалоговый интерфейс в плане реакции на ошибки и подсказок

изменяемость языка, проблема пополнения и редактирования базы