
- •Анализ отдельных слов
- •Анализ отдельных предложений
- •Семантический анализ
- •Заключение
- •Литература
- •Документальные ис.
- •Принцип функционирования ипс.
- •Состав аис.
- •Уровни представления языковых объектов.
- •Основные элементы ипя.
- •Требования к ипя.
- •Типология ипя.
- •Языки предкоординатного типа. Иерархическая классификация.
- •Перечислительные классификации.
- •Фасетные классификации.
- •Посткоординационные ипя.
- •Дескрипторные ипя.
- •Устранение синонимии.
- •Словари лексических единиц.
- •1. Тезаурус.
- •2. Другие виды.
- •Построение словаря дескрипторного языка. Основные характеристики. Анализ и построение словаря дескрипторного языка.
- •Количественные характеристики словарей.
- •Учёт синтагматических отношений.
- •Семантические коды.
- •Системы индексирования.
- •Типы (разновидности) систем индексирования.
- •Подходы к автоматизации индексирования.
- •Системы кодирования.
- •Оценка эффективности поиска.
- •Организация информационных массивов.
- •Стратегии поиска.
- •Элементы теории формальных языков и грамматик Введение.
- •Основные понятия и определения
- •Классификация грамматик и языков по Хомскому
- •Примеры грамматик и языков.
- •Разбор цепочек
- •Преобразования грамматик
- •Задачи.
- •Элементы теории трансляции Введение.
- •Описание модельного языка
- •Лексический анализ
- •О недетерминированном разборе
- •Задачи лексического анализа
- •Лексический анализатор для м-языка
- •Второй этап: по дс пишем программу
- •Задачи.
- •Синтаксический и семантический анализ
- •Метод рекурсивного спуска
- •Void error(); / функция обработки ошибок /
- •О применимости метода рекурсивного спуска
- •Синтаксический анализатор для м-языка
- •О семантическом анализе
- •Семантический анализатор для м-языка
- •Обработка описаний
- •Int declare; /* описан ? 1-"да", 0-"нет" */
- •Void ipush (int I); /* значение I - в стек */
- •Int ipop (void); /* из стека - целое */
- •Контроль контекстных условий в выражении
- •Void spush (char *s); /* значение s - в стек */
- •If (tid [I].Declare) /* описан? */
- •Контроль контекстных условий в операторах
- •Задачи.
- •Генерация внутреннего представления программ
- •Язык внутреннего представления программы
- •Синтаксически управляемый перевод
- •Генератор внутреннего представления программы на м-языке
- •Интерпретатор полиЗа для модельного языка
- •Задачи.
- •Литература
- •Раздел 7 (вопрос 3) Значение когнитивной психологии и структурной лингвистики для автоматизированной обработки текстов на ея
- •Когнитивная лингвистика
- •Когнитивная лингвистика и другие науки
- •Концепция образных схем
- •Концептуальная теория метафоры
- •Формирование когнитивной лингвистики
- •Раздел 7 (вопрос 5) Модель понимания текстов Кинча
- •1.2. Основные положения
- •1.3. Общая характеристика модели
- •Раздел 7 (вопрос 6) Принципы структуризации текстов на основе трансформационной грамматики.
- •Синтактика, семантика и прагматика
- •Знаки и культура
- •Синтагма и парадигма
- •Типы связей между знаком и денотатом
- •Знак. Его значение и смысл
- •Знаковое пространство. Парадигма трех миров
- •Знаковые системы и типы знаков
- •Понятие коннотата
- •Проблема похожести знака на денотат. Ономатопея
- •Случайность и закономерность в знаках и знаковых системах
- •Прагматика – часть семиотики
- •Глава 2. Слова, словари и понятия Слова и словари
- •Акты именования. Семиотические универсалии
- •Треугольник Фреге. Связь между знаком, денотатом и понятием
- •Глава 3. Теория тезауруса Тезаурус. Онтогенез
- •Тезаурус. Определение
- •Популярные тезаурусы и их особенности
- •Теория тезауруса и семиотика
- •Теория тезауруса и информатика
- •Тезаурус. Парадигматика
- •Тезаурусная терминология
- •Популярные тезаурусы и их особенности
- •Глава 4. Эволюция знаковых систем. Законы существования текстов в обществе Постановка проблемы
- •Парадигматика, или правила обращения с текстами
- •Материализация знака. Фактура речи
- •Переход от одной фактуры речи к другой
- •Глава 5. Парадигмы построения эффективных знаковых произведений Общие положения
- •Риторика и ее гуманитарная катастрофа
- •Определение риторики как науки об эффективной деятельности
- •Риторика как прагматика
- •Риторика и логика. Риторика и истина. Образ автора
- •Риторика. Классические парадигмы
- •Понятие риторического изобретения
- •Девиации синтактики и семантики знаков как риторическая парадигма
- •Риторика как технология эффективной деятельности. Теория документа
- •Глава 6. Знаки, люди и законы. Парадигмы их взаимодействия на примере рекламных текстов Американская реклама как сфера общения
- •Коммуникативная структура американской рекламы
- •Авторство и правила обращения с рекламными текстами
- •Роль рекламных текстов в американском обществе
- •Законодательное регулирование рекламной деятельности
- •Законы знакообразования
- •Законодательное регулирование связи знак–денотат в рекламе
- •Прагматика рекламного текста
- •Регулирование собственно рекламной деятельности как производства текстов
- •Рекламоведческие правила
- •Правила сбора информации
- •Синтактика рекламного текста
- •Интеграция с другими типами знаков
- •Прагматический эффект рекламы
- •Реклама – важная часть американской цивилизации
- •Универсальность и прогностический потенциал рекламной парадигмы
- •Нечеткие множества. Основные понятия и определения, подходы к их обработке, операции над нечёткими множествами.
Анализ отдельных предложений
После того как произведен анализ каждого слова, начинается анализ отдельных предложений (синтаксический анализ), позволяющий определить взаимосвязи между отдельными словами и частями предложения (рис. 5). Результатом такого анализа является граф, узлами которого выступают слова предложения; при этом, если два слова связаны каким-либо образом, то соответствующие им вершины графа связаны дугой с определенной окраской. Возможные окраски дуг зависят от языка, на котором написано предложение, а также от выбранного способа представления синтаксической структуры предложения.
При синтаксическом анализе предложений русского языка в качестве окрасок дуг можно использовать вопросы, задаваемые от одного слова к другому. В вершинах графа слова пишутся не в том виде, в котором они встречаются в предложении, а в своей основной словоформе. Некоторым словам (например, предлогам) вообще не соответствует ни одна из вершин графа, но эти слова влияют на вопросы, задаваемые от одного слова к другому.
Возможны и другие способы представления зависимостей между словами в предложении (например, разбор предложения по частям и выделение подлежащего, сказуемого и т.д.). На основе системы этих зависимостей могут быть разработаны иные способы представления синтаксической структуры предложения [7].
Перейдем к методам синтаксического анализа предложений. Их можно разделить на две группы: методы с фиксированным, заранее заданным набором правил и самообучающиеся методы. Правила представляются не в виде классических продукций («если ..., то ...»), а в виде грамматик, задающих синтаксис языка. Исторически, первым способом описания синтаксиса языка были формальные грамматики [8]. Они задаются в виде четырех компонентов: множество терминальных символов, множество нетерминальных символов, правила вывода и начальный символ. Формальные грамматики хорошо изучены и широко применяются при описании формальных языков (например, языков программирования), но непригодны для описания синтаксиса естественных языков.
Трансформационные грамматики [8] разрабатывались уже специально для задания синтаксических правил построения предложений, написанных на естественном языке. Такие грамматики задаются в виде ориентированного графа состояний, всем дугам которого поставлены в соответствие определенные части речи. В начале работы алгоритм синтаксического анализа находится в некотором начальном состоянии; ему соответствует некоторая вершина графа. Алгоритм просматривает предложение слева направо, анализирует встречающиеся слова и делает переходы из одного состояния в другое в соответствии с выходящими из текущей вершины дугами и очередным словом предложения. Работа алгоритма заканчивается, когда предложение просмотрено полностью, либо когда невозможно сделать переход из текущего состояния (нет выходящей дуги с необходимой пометкой).
К сожалению, трансформационные грамматики не способны задавать рекурсивные синтаксические правила; кроме того, построение таких грамматик даже для небольшого подмножества языка требует больших усилий.
Оба описанных подхода заключают в себе четко заданную систему правил, согласно которым производится синтаксический анализ предложения. Помимо уже указанных недостатков они имеют еще один большой минус, который состоит в их неспособности анализировать неправильно построенные предложения. Это привело к созданию новых методов синтаксического анализа, основанных на вероятностном подходе; к ним относятся вероятностные грамматики и вероятностный разбор.
Вероятностные грамматики [6] расширяют формальные грамматики: каждому правилу построения предложения указана некоторая вероятность применения этого правила. После того, как произведен синтаксический анализ предложения, становится известно, на основе каких правил оно было построено, и на основе сопоставленных с ними вероятностей может быть посчитана «суммарная» вероятность. Конечно, одно и то же предложение может быть разобрано несколькими способами; для каждого из них считается его «суммарная» вероятность и выбирается наиболее вероятный способ построения предложения. Этот метод позволяет анализировать неправильно построенные предложения; однако он, как и два предыдущих, включает в себя систему заранее задаваемых правил.
Синтаксический анализ на основе обучающихся систем — пока еще малоизученный подход. Он заключается в следующем. Разрабатывается множество примеров, содержащих пару — исходное предложение и результат его синтаксического анализа. Этот результат вводится человеком, занимающимся обучением системы, в ответ на каждое подаваемое на вход предложение. Затем, при подаче на вход предложения, не входящего в список примеров, система сама генерирует результат. Для реализации такой обучающейся системы используются такие методы, как нейронные сети, деревья вывода, ILP и методы поиска ближайшего соседа.
Это далеко не весь спектр методов синтаксического анализа. Удовлетворительных решений данного вопроса пока еще не найдено, хотя есть методы, дающие неплохие результаты, но работающие только на подмножестве языка [7]. Решение задачи синтаксического анализа текста должно послужить основой, во-первых, для построения более совершенных синтаксических корректировщиков (программные средства, проверяющие правильность построения предложения) и, во-вторых, для построения алгоритмов более качественного семантического анализа текстов.