
- •Основы прикладной лингвистики
- •Раздел I. Введение
- •Раздел II. Автоматическая обработка текста (аот)
- •Фонетика и графика
- •Морфология (морфонализ)
- •Синтаксис
- •Cемантика
- •100.000 Словоупотреблений. Морфологическая и синтаксическая разметка.
- •Атрибуция текста
- •4 Методики:
- •Автоматическая проверка правописания
Cемантика
Семантический анализ
Генеральная цель – представить структуру предложения и текста в виде однозначной формальной схемы.
Семантический анализ
А я иду, шагаю по Москве…
S: Человек [сообщает о себе]
P: движется *ногами [вероятно, быстро и свободно]
Loc.: по столице [главному городу] России (СССР)
Семантические примитивы
Возможный последующий семантический синтез
перефразирование
автоматический перевод
выделение ключевых слов («терминов»)
построение парадигматических сетей (в первую очередь синонимов)
реферирование, в том числе синтез связного текста, определяемого содержанием исходного текста
Применимость
автоматический перевод
аннотирование и реферирование
сбор информации, «досье»
каталоги и рубрикация
антиспам
естественный диалог
… искусственный интеллект
! Тесная связь с АОТ на других уровнях
Проблемы: много, как всегда
идиоматичность семантики неформализованность!
пересекаемость сем. парадигм
Храпеть – спать? (физиология)
Храпеть – издавать звуки? (звучание)
многозначность («омонимия») и синонимия (асимметричность языкового знака)
Проблемы: много, как всегда
наличие составных наименований (любых «неоднословных целостностей»)
контекстная обусловленность, влияние речевой ситуации
изменяемость действительности
Словарь глаголов
/ Под общ. ред. проф. Л. Г. Бабенко (Москва, АСТ-Пресс, 1999, 2007)
Общая структура словаря
I. Действие и деятельность
1.1. Движение
1.2. Перемещение объекта
1.3. Помещение
1.4. Физическое воздействие
1.5. Созидательная деятельность
1.6. Интеллектуальная деятельность
1.7. Речевая деятельность
1.8. Социальная деятельность
1.9. Физиологическая деятельность
1.0. Звучание
II. Бытие, состояние, качество
2.1. Бытие
2.2. Качественное состояние
III. Отношение
3.1. Взаимоотношение
3.2. Владение
3.3. Межличностные отношения
3.4. Социальные отношения
Как применять идеографическую систему?
Важные лексикологические установки
связь синтагматики (употребления) с парадигматикой (системными связями между словами):
доехать – дойти – доплыть – долететь
контекст и «семная поддержка»
валентность слова и контекстные факторы, влияющие на реализацию значения
Контекстные факторы и семантический анализ
Назначить
1. Заранее наметить, определить (срок, совершение какого-л. действия и т.п.)
3. кого кем. Поставить, направить на какую-л. должность, работу.
5. Мед. Предписать (лечение, прием лекарства и т.п.)
Промежуточные выводы
Без семантического словаря (тематического, идеографического, тезауруса) не обойтись!
Результат семантического анализа –упорядоченное множество записей, связывающих слова с семантическими классами и выражающих определенные семантические отношения.
Анализ на уровне словосочетания и фразы
Теоретические проблемы:
Что такое словосочетание?
Что такое предложение?
Ответы возможны с теоретической и прикладной точек зрения.
Единственно верного ответа нет (?)
Модель «СМЫСЛ ТЕКСТ»
И. Мельчук
А. Жолковский
Ю. Апресян
многоуровневая формализованная модель преобразования смысла в текст и обратно
Основы «семантического языка»
опора на семантические примитивы
(слово как структурированая комбинация элементарных заданных смыслов:
столик = стол + маленький
учительница = учитель + женщина = человек + учить + женщина = ?)
малый объем словаря
отсутствие многозначности
Составляющие системы
Семантический словарь
Дискурсный семантический граф
Правила анализа семантических отношений
Парадигматика и синтагматика
семантические характеристики категоризация
семантические отношения
Принципы категоризации лексики
«Человек» (сем. группа):
учитель, строитель, следователь, священник, покупатель, рыбак, продавец, ученик, преступник…
Сферы действительности (денотативные группы)
«Образование»: учитель, ученик
«Право»: преступник, следователь
«Религия»: священник…
Принципы категоризации лексики
Словари группы «Русский глагол»
Семантический словарь под редакцией Н. Ю. Шведовой
Семантическая разметка в Национальном корпусе русского языка
Система «Диалинг»
Обобщенная категоризация (Диалинг)
предикаты
объектные слова
«модификаторы» (напр. частица НЕ)
маркеры сем. отношений (часть, признак и т.п.)
«стоп-слова» (stop-words)
Вася вбил молотком гвоздь в стену.
Семантические характеристики: система «Диалинг» (AOT.ru)
Семантическое отношение
Универсальная бинарная смысловая связь между словами, идет от одного понятийного узла (обладающего набором характеристик) к другому.
Семантическое отношение
R (A, B), где R – название отношения,
A – зависимое понятие
B – управляющее понятие
Принцип: A является R для B
Реализации семантического отношения
Поэма Пушкина, пушкинская поэма.
Поэма написана Пушкиным.
Пушкин написал поэму.
Поэма принадлежит перу Пушкина…
Сравним семантические и синтаксические отношения и вспомним, что некоторые модели семантического анализа отказываются от полной формализации синтаксических структур.
Пример записи СО
Встреча назначена на пять часов.
ВРЕМЯ (пять часов, встреча)
Семантические отношения: система «Диалинг» (aot.ru)
Семантические отношения: система «Диалинг» (aot.ru)
Схема анализа на AOT.ru
Пример анализа фразы (Диалинг)
Мы разговаривали так, как будто расстались вчера, как будто знали друг друга много лет.
М. Булгаков, «Мастер и Маргарита»
Пример анализа фразы
Выводы
Связь семантического анализа с проблемами искусственного интеллекта.
Перспективы использования семантического анализа.
Машинный перевод как наиболее сложное направление в ИИ.
Затратность создания алгоритмов.
Способы решения проблем.
Области приложения АОТ
Корпусная лингвистика
Корпус - это
сформированная по определенным правилам выборка языковых данных.
По сути, лингвистическая база данных.
Чаще всего под корпусом понимают корпус текстов. Корпус не просто хранилище в эл. формате (библиотека), а содержит метатекстовую разметку, т.е. единицам корпуса приписана содержательная лингвистическая информация.
Плунгян Владимир Александрович, д-р филол. наук, координатор проекта «Национальный корпус русского языка»
нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке <…> подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков.»
Появление корпусов изменило философию лингвистического исследования
Возможность работы с огромными объемами информации.
Наличие корпусов не только подтверждает научные гипотезы, но и ставит оригинальные проблемы перед теоретической лингвистикой.
В итоге не дихотомия, а триада:
Язык Речь
Корпус
Построение словарей на основе корпуса
Конкорданс – массив употреблений одной единицы.
Все смешалось в доме Облонских.
Дети бегали по дому как потерянные.
Подъехав к дому, Облонский высадил сестру.
… … … и еще миллиона два контекстов.
Залог качественной, «неумозрительной» выборки материала
качественная дефиниция
А раньше конкорданс можно было представить на карточках словарной коллекции.
И он не был репрезентативен…
И на него уходила масса времени и усилий…
Понятия корпусной лингвистики
Корпус данных (чаще текстов)
Проблемная область
Единица хранения и уровень разметки
Порог отображения данных
Порог отображения данных: пропорциональное сужение
Порог отображения данных: пропорциональное сужение
Порог отображения данных: пропорциональное сужение
Вопрос объема корпуса
проблема недостаточности данных
проблема чрезмерности данных
Решается опытным путем.
Типология корпусов
Статические – динамические
Исследовательские – иллюстративные
Параллельные (полиязыковые) – моноязыковые
Структурированные – неструктурированные (последние нормальными корпусами не являются!)
Требования к корпусу
репрезентативность
полнота
разноуровневая разметка (желательно со снятой омонимией)
прозрачность и логичность разметки
легкость ввода, редактирования и вывода данных в нужном формате
программное обеспечение
Достижения КЛ
Брауновский корпус американского английского (создан в 1962-1963 гг.) – около 1 млн словоупотреблений.
http://www.hd.uib.no/icame/bcm.html
Достижения КЛ
Британский национальный корпус (создан в 1990 г., published in 1994) – около 1 млн словоупотреблений.
http://www.natcorp.ox.ac.uk
Достижения КЛ
Чешский национальный корпус Карлова университета (Прага).
Основан в 1994 г., 20 млн словоупотреблений для пользователей Интернета, 100 млн словоупотреблений в целом.
http://ucnk.ff.cuni.cz/
Достижения КЛ
Проект «Персей» (Perseus) Изначально размеченный массив античных текстов, а теперь – расширенное хранилище
(Renaissance Materials etc. … …)
Англоязычные тексты – около 10 млн словоупотреблений.
Латынь – около 1 млн словоупотреблений.
И прочее. Для тех, кому надо. См.:
http://www.perseus.tufts.edu
Русские проекты
Уппсальский корпус (создан в Швеции в 1987 г.)
Единица хранения – текст.
Основа русского корпуса Тюбингенского университета (ФРГ)
http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html
Русские проекты
Машинный (компьютерный) фонд Института русского языка РАН.
The Computer Fund of Russian Language (CFRL) is a research and development department within the V.V.Vinogradov Institute for Russian Language of the Russian Academy of Sciences. It was started in 1985.
(www.cfrl.ru )
Русские проекты
Корпус газетных текстов, созданный под рук. Анат. Яновича Шайкевича (Машинный фонд Института русского языка РАН).
Около 7,5 млн словоупотреблений в 29,5 тысячах текстовых фрагментов.
Материал взят из публицистики 2-й половины 1990-х гг.
Выставлен на сайте Маш. фонда.
Пример разметки в корпусе Шайкевича
[%iso88591; ]> CFRL Parole encoding Computer Fund of Russian Language
http:// On-line 99-01-27 &parole.tax; 99-01-27 Russian
izi02edu
Жизнь в России все же не темна. Есть 1 сентября — праздник, который всегда с тобой…]
Русские проекты
Кроме газетного корпуса, за время существования МФ создано несколько менее объемных собраний:
корпус языка Ф. М. Достоевского
корпус рекламных слоганов
корпус метафор
корпус дискурсивных слов
и ряд других.
Русские проекты
Национальный корпус русского языка
(www.ruscorpora.ru)
Ориентация на 200 млн словоупотреблений.
Метатекстовая, акцентная, морфологическая, синтаксическая и семантическая (!) разметка (сделано фрагментарно).
Зона со снятой морфологической омонимией (около 6 млн словоформ)
Принципы поиска в корпусе (на примере НКРЯ)
подкорпус
поиск по метатекстовым признакам
поиск по морфологическим, синтаксическим, семантическим признакам
возможность задать расстояние между словами
Подразделы корпуса
Основной корпус (письменные и устные тексты)
Диалектный корпус
Поэтический корпус
… …
Речевые действия в мультимедийном корпусе
Количество говорящих в клипе
Пол говорящих (актеров)
Язык, на котором говорят
Социальная ситуация, отраженная в клипе
Типы речевых действий (Апеллятивы; Вопросы; Императивы и побудительные высказывания; Модальные высказывания и перформативы; Отрицание; Пейоративные высказывания; Похвала; Согласие; Торговля; Утверждение; Чужая речь; Шутливые/насмешливые высказывания; Этикетные высказывания)
Полнота речевого действия
Наличие и типы повторов
Манера говорения
Типы вокальных жестов и междометий
Жесты в мультимедийном корпусе
Основной орган
Ориентация ладони
Ориентация кисти
Активный орган
Пассивный орган
Адаптор
Направление движения
Кратность жеста
Название жеста
НКРЯ:
Неровность проекта на сегодняшний день.
Несистемные лакуны в зоне со снятой омонимией.
Тем не менее этот проект остается самым мощным и перспективным на сегодняшний день!
Русские проекты
Хельсинкский аннотированный корпус (ХАНКО). Основан на материалах журнала «Итоги».