- •Анализ отдельных слов
- •Анализ отдельных предложений
- •Семантический анализ
- •Заключение
- •Литература
- •Документальные ис.
- •Принцип функционирования ипс.
- •Состав аис.
- •Уровни представления языковых объектов.
- •Основные элементы ипя.
- •Требования к ипя.
- •Типология ипя.
- •Языки предкоординатного типа. Иерархическая классификация.
- •Перечислительные классификации.
- •Фасетные классификации.
- •Посткоординационные ипя.
- •Дескрипторные ипя.
- •Устранение синонимии.
- •Словари лексических единиц.
- •1. Тезаурус.
- •2. Другие виды.
- •Построение словаря дескрипторного языка. Основные характеристики. Анализ и построение словаря дескрипторного языка.
- •Количественные характеристики словарей.
- •Учёт синтагматических отношений.
- •Семантические коды.
- •Системы индексирования.
- •Типы (разновидности) систем индексирования.
- •Подходы к автоматизации индексирования.
- •Системы кодирования.
- •Оценка эффективности поиска.
- •Организация информационных массивов.
- •Стратегии поиска.
- •Элементы теории формальных языков и грамматик Введение.
- •Основные понятия и определения
- •Классификация грамматик и языков по Хомскому
- •Примеры грамматик и языков.
- •Разбор цепочек
- •Преобразования грамматик
- •Задачи.
- •Элементы теории трансляции Введение.
- •Описание модельного языка
- •Лексический анализ
- •О недетерминированном разборе
- •Задачи лексического анализа
- •Лексический анализатор для м-языка
- •Второй этап: по дс пишем программу
- •Задачи.
- •Синтаксический и семантический анализ
- •Метод рекурсивного спуска
- •Void error(); / функция обработки ошибок /
- •О применимости метода рекурсивного спуска
- •Синтаксический анализатор для м-языка
- •О семантическом анализе
- •Семантический анализатор для м-языка
- •Обработка описаний
- •Int declare; /* описан ? 1-"да", 0-"нет" */
- •Void ipush (int I); /* значение I - в стек */
- •Int ipop (void); /* из стека - целое */
- •Контроль контекстных условий в выражении
- •Void spush (char *s); /* значение s - в стек */
- •If (tid [I].Declare) /* описан? */
- •Контроль контекстных условий в операторах
- •Задачи.
- •Генерация внутреннего представления программ
- •Язык внутреннего представления программы
- •Синтаксически управляемый перевод
- •Генератор внутреннего представления программы на м-языке
- •Интерпретатор полиЗа для модельного языка
- •Задачи.
- •Литература
- •Раздел 7 (вопрос 3) Значение когнитивной психологии и структурной лингвистики для автоматизированной обработки текстов на ея
- •Когнитивная лингвистика
- •Когнитивная лингвистика и другие науки
- •Концепция образных схем
- •Концептуальная теория метафоры
- •Формирование когнитивной лингвистики
- •Раздел 7 (вопрос 5) Модель понимания текстов Кинча
- •1.2. Основные положения
- •1.3. Общая характеристика модели
- •Раздел 7 (вопрос 6) Принципы структуризации текстов на основе трансформационной грамматики.
- •Синтактика, семантика и прагматика
- •Знаки и культура
- •Синтагма и парадигма
- •Типы связей между знаком и денотатом
- •Знак. Его значение и смысл
- •Знаковое пространство. Парадигма трех миров
- •Знаковые системы и типы знаков
- •Понятие коннотата
- •Проблема похожести знака на денотат. Ономатопея
- •Случайность и закономерность в знаках и знаковых системах
- •Прагматика – часть семиотики
- •Глава 2. Слова, словари и понятия Слова и словари
- •Акты именования. Семиотические универсалии
- •Треугольник Фреге. Связь между знаком, денотатом и понятием
- •Глава 3. Теория тезауруса Тезаурус. Онтогенез
- •Тезаурус. Определение
- •Популярные тезаурусы и их особенности
- •Теория тезауруса и семиотика
- •Теория тезауруса и информатика
- •Тезаурус. Парадигматика
- •Тезаурусная терминология
- •Популярные тезаурусы и их особенности
- •Глава 4. Эволюция знаковых систем. Законы существования текстов в обществе Постановка проблемы
- •Парадигматика, или правила обращения с текстами
- •Материализация знака. Фактура речи
- •Переход от одной фактуры речи к другой
- •Глава 5. Парадигмы построения эффективных знаковых произведений Общие положения
- •Риторика и ее гуманитарная катастрофа
- •Определение риторики как науки об эффективной деятельности
- •Риторика как прагматика
- •Риторика и логика. Риторика и истина. Образ автора
- •Риторика. Классические парадигмы
- •Понятие риторического изобретения
- •Девиации синтактики и семантики знаков как риторическая парадигма
- •Риторика как технология эффективной деятельности. Теория документа
- •Глава 6. Знаки, люди и законы. Парадигмы их взаимодействия на примере рекламных текстов Американская реклама как сфера общения
- •Коммуникативная структура американской рекламы
- •Авторство и правила обращения с рекламными текстами
- •Роль рекламных текстов в американском обществе
- •Законодательное регулирование рекламной деятельности
- •Законы знакообразования
- •Законодательное регулирование связи знак–денотат в рекламе
- •Прагматика рекламного текста
- •Регулирование собственно рекламной деятельности как производства текстов
- •Рекламоведческие правила
- •Правила сбора информации
- •Синтактика рекламного текста
- •Интеграция с другими типами знаков
- •Прагматический эффект рекламы
- •Реклама – важная часть американской цивилизации
- •Универсальность и прогностический потенциал рекламной парадигмы
- •Нечеткие множества. Основные понятия и определения, подходы к их обработке, операции над нечёткими множествами.
Системы индексирования.
Индексирование – перевод запроса с ЕЯ на ИПЯ (свёртывание текста + сохранение смысла).
Индексирование – выражение центральной темы документа средствами ИПЯ, выражениями ПОДа и ПОЗа.
Существует 2 подхода к индексированию:
-
интерпретация – текст на ЕЯ смысл-текст на ИПЯ. Интерпретация предполагает изучение текста, его анализ, выявление содержания, перевод его на ИПЯ, т.е. конечный результат изучения – текст.
-
перевод – замена лексических единиц ЕЯ на лексические единицы ИПЯ, т.е. пословная обработка.
Индексирование как процедура похожа на перевод с ЕЯ на другой ЕЯ, разница: ИПЯ – формальный язык.
Типы (разновидности) систем индексирования.
-
по степени автоматизации (ручные автоматические)
-
по степени контролируемости лексики (без словаря со словарём)
-
по характеру алгоритма индексирования.
-
Последовательный просмотр (пословный перевод на ИПЯ)
-
Эвристические процедуры – предполагают анализ текста, базируются не на принципе пословного перевода, а на принципе интерпретации (в меньшей степени подходят для автоматизации).
-
Алгоритм, базирующийся на эвристических процедурах (например, на частоте использования).
по наличию лексико-графического контроля – приведение слов к нормальному виду (единой морфологической форме0, подразумевает устранение многозначности языка.
по аспектам
-
одноаспектное индексирование – ИПС имеет широкий тематический профиль и относительно малое наполнение каждой темы.
-
Многоаспектное индексирование – сложныеформы для выполнения запроса.
-
пост- и предкоординация
В процессе индексирования имеется ли возможность самостоятельной координации лексических единиц.
Пример1. Система свободного индексирования предполагает: индексатор выписывает слова, которые, по его мнению, наиболее полно отражают содержание документа (ассоциации, слова из других источников и др.) Характеристика: ручное индексирование без словаря, применяются эвристические процедуры, отсутствует лексический контроль.
Пример2. Система жёсткого индексирования предполагает, что слова выписываются только из текста, в ПОД включаются только те, которые есть в словаре, вводится нормализация терминов. Характеристика: может быть и автоматическим, со словарём, чаще производится методом последовательного просмотра текста, присутствует контроль лексических единиц.
Детальность характеризует точность отражения содержания в ПОДе. Она определяется смысловой близостью ключевых слов, которые были выделены, и дескрипторами, которые вошли в ПОД.
Глубина индексирования характеризует полноту раскрытия содержания в ПОДе. Условно, можно считать, что глубина индексирования оценивается числом слов, входящих в ПОД.
На качество индексирования оказывает влияние индексатор. Чаще всего используется ручное индексирование.
Вводят понятие непоследовательное индексирование – расхождение по глубине и детальности индексирования в ПОДах одного и того же сообщения, но составленных либо одним индексатором в разное время, либо разными индексаторами.