- •Анализ отдельных слов
- •Анализ отдельных предложений
- •Семантический анализ
- •Заключение
- •Литература
- •Документальные ис.
- •Принцип функционирования ипс.
- •Состав аис.
- •Уровни представления языковых объектов.
- •Основные элементы ипя.
- •Требования к ипя.
- •Типология ипя.
- •Языки предкоординатного типа. Иерархическая классификация.
- •Перечислительные классификации.
- •Фасетные классификации.
- •Посткоординационные ипя.
- •Дескрипторные ипя.
- •Устранение синонимии.
- •Словари лексических единиц.
- •1. Тезаурус.
- •2. Другие виды.
- •Построение словаря дескрипторного языка. Основные характеристики. Анализ и построение словаря дескрипторного языка.
- •Количественные характеристики словарей.
- •Учёт синтагматических отношений.
- •Семантические коды.
- •Системы индексирования.
- •Типы (разновидности) систем индексирования.
- •Подходы к автоматизации индексирования.
- •Системы кодирования.
- •Оценка эффективности поиска.
- •Организация информационных массивов.
- •Стратегии поиска.
- •Элементы теории формальных языков и грамматик Введение.
- •Основные понятия и определения
- •Классификация грамматик и языков по Хомскому
- •Примеры грамматик и языков.
- •Разбор цепочек
- •Преобразования грамматик
- •Задачи.
- •Элементы теории трансляции Введение.
- •Описание модельного языка
- •Лексический анализ
- •О недетерминированном разборе
- •Задачи лексического анализа
- •Лексический анализатор для м-языка
- •Второй этап: по дс пишем программу
- •Задачи.
- •Синтаксический и семантический анализ
- •Метод рекурсивного спуска
- •Void error(); / функция обработки ошибок /
- •О применимости метода рекурсивного спуска
- •Синтаксический анализатор для м-языка
- •О семантическом анализе
- •Семантический анализатор для м-языка
- •Обработка описаний
- •Int declare; /* описан ? 1-"да", 0-"нет" */
- •Void ipush (int I); /* значение I - в стек */
- •Int ipop (void); /* из стека - целое */
- •Контроль контекстных условий в выражении
- •Void spush (char *s); /* значение s - в стек */
- •If (tid [I].Declare) /* описан? */
- •Контроль контекстных условий в операторах
- •Задачи.
- •Генерация внутреннего представления программ
- •Язык внутреннего представления программы
- •Синтаксически управляемый перевод
- •Генератор внутреннего представления программы на м-языке
- •Интерпретатор полиЗа для модельного языка
- •Задачи.
- •Литература
- •Раздел 7 (вопрос 3) Значение когнитивной психологии и структурной лингвистики для автоматизированной обработки текстов на ея
- •Когнитивная лингвистика
- •Когнитивная лингвистика и другие науки
- •Концепция образных схем
- •Концептуальная теория метафоры
- •Формирование когнитивной лингвистики
- •Раздел 7 (вопрос 5) Модель понимания текстов Кинча
- •1.2. Основные положения
- •1.3. Общая характеристика модели
- •Раздел 7 (вопрос 6) Принципы структуризации текстов на основе трансформационной грамматики.
- •Синтактика, семантика и прагматика
- •Знаки и культура
- •Синтагма и парадигма
- •Типы связей между знаком и денотатом
- •Знак. Его значение и смысл
- •Знаковое пространство. Парадигма трех миров
- •Знаковые системы и типы знаков
- •Понятие коннотата
- •Проблема похожести знака на денотат. Ономатопея
- •Случайность и закономерность в знаках и знаковых системах
- •Прагматика – часть семиотики
- •Глава 2. Слова, словари и понятия Слова и словари
- •Акты именования. Семиотические универсалии
- •Треугольник Фреге. Связь между знаком, денотатом и понятием
- •Глава 3. Теория тезауруса Тезаурус. Онтогенез
- •Тезаурус. Определение
- •Популярные тезаурусы и их особенности
- •Теория тезауруса и семиотика
- •Теория тезауруса и информатика
- •Тезаурус. Парадигматика
- •Тезаурусная терминология
- •Популярные тезаурусы и их особенности
- •Глава 4. Эволюция знаковых систем. Законы существования текстов в обществе Постановка проблемы
- •Парадигматика, или правила обращения с текстами
- •Материализация знака. Фактура речи
- •Переход от одной фактуры речи к другой
- •Глава 5. Парадигмы построения эффективных знаковых произведений Общие положения
- •Риторика и ее гуманитарная катастрофа
- •Определение риторики как науки об эффективной деятельности
- •Риторика как прагматика
- •Риторика и логика. Риторика и истина. Образ автора
- •Риторика. Классические парадигмы
- •Понятие риторического изобретения
- •Девиации синтактики и семантики знаков как риторическая парадигма
- •Риторика как технология эффективной деятельности. Теория документа
- •Глава 6. Знаки, люди и законы. Парадигмы их взаимодействия на примере рекламных текстов Американская реклама как сфера общения
- •Коммуникативная структура американской рекламы
- •Авторство и правила обращения с рекламными текстами
- •Роль рекламных текстов в американском обществе
- •Законодательное регулирование рекламной деятельности
- •Законы знакообразования
- •Законодательное регулирование связи знак–денотат в рекламе
- •Прагматика рекламного текста
- •Регулирование собственно рекламной деятельности как производства текстов
- •Рекламоведческие правила
- •Правила сбора информации
- •Синтактика рекламного текста
- •Интеграция с другими типами знаков
- •Прагматический эффект рекламы
- •Реклама – важная часть американской цивилизации
- •Универсальность и прогностический потенциал рекламной парадигмы
- •Нечеткие множества. Основные понятия и определения, подходы к их обработке, операции над нечёткими множествами.
Посткоординационные ипя.
В основе языков этого типа лежит гипотеза о том, что основными носителями смысла текста являются так называемые ключевые слова. Ключевые слова – существительные (как правило) или существительные с прилагательными (любые части речи, кроме предлогов, союзов, междометий и т.п.) – слова, которые обозначают понятия об объектах информации и понятия, которые обозначают действия над этими объектами.
Языки этого типа ориентированы на многоаспектный поиск по любому сочетанию признаков. Такие языки обладают большой семантической силой. Они ориентированы на автоматизированную технологию.
Среди языков этого типа выделяют:
-
дескрипторные языки
-
языки семантических кодов
-
синтагматические языки.
Наиболее распространённый тип – дескрипторный язык.
Дескрипторные ипя.
Все дескрипторные языки основаны на методах координатного индексирования. Этот метод появился в середине прошлого века.
Координационный индекс – способ выражения основного смыслового содержания документа или запроса в виде совокупности ключевых слов. Выделенные ключевые слова для формирования поискового образа могут быть связанымежду собой грамматическими средствами, а могут и нет. Если они никак не связаны, а функционируют самостоятельно, то такая ситуация называется «чистое координатное индесирование». Тогда ПОД представляет собой перечень (список) ключевых слов, выражающих основное содержание документа, а ПОЗ – список ключевых слов, которые выражают основное смысловое содержание запроса.
Чтобы обеспечить единообразие при координатном индексировании документа и запроса необходимо однозначное понимание ключевых слов.
Чтобы отыскать документ, который отвечает запросу необходимо выполнить определённые логические операции над классами, которыми обозначены ключевые слова ПОДа.
Глубина индексирования не напрямую определяется количеством ключевых слов, включённых в поисковый запрос. Это то, насколько полно передан запрос. Глубина индексирования достигается определённым набором средств – специальным выбором ключевых слов и связью их между собой.
Лексический состав дескрипторного языка – перечень ключевых слов – некое множество лексических единиц языка. Дескрипторный язык удобно формализованно описывать с помощью теории множеств. Тогда появляется возможность на этом языке описывать процесс поиска, следовательно появляется возможность автоматизированной обработки.
30.09.2006
Недостатки чисто координатного индексирования.
Пример. Есть 3 документа:
-
из области химии (ПОД: хлориды, натрий, бромиды, калий, йодиды) – хлористый натрий, бромистый калий, йодистый калий.
-
из области физики (ПОД: столкновение, мизоны, протоны) – столкновение мизона и протона.
-
анализ проблем по передаче электроэнергии из Англии в Шотландию (ПОД: передача, электроэнергия, Англия, Шотландия).
Чистое координатное индексирование не всегда обеспечивает высокую точность и полноту поиска за счёт следующего.
-
Ложная координация.
Пусть предметом поиска является «йодистый натрий», тогда ПОД будет выглядеть: «йодиды, натрий», тогда при поиске (точное совпадение) будет выдан первый документ. Но окажется, что он не по теме: слова встречаются, но в другом контексте. Документ будет не релевантным.
Чистое координатное индексирование недостаточно для обеспечения нужной полноты и точности поиска.
-
Неполная координация.
«Столкновение протона с нейтроном». Выдан второй документ, который опять будет нерелевантным. Чтобы избежать неполную координацию часто используют формулировку запроса в виде логической формулы.
-
Синонимия ключевых слов.
«Поваренная соль». ИПС не выдаст ни одного документа, так как термина в документах не встречается. С учётом синонимии очевидно, что поваренная соль = хлористый натрий.
Для того, чтобы устранить синонимию ключевых слов, которые применяются при чистом координатном индексировании, можно использовать нормированный список терминов, где существует отсылка к ключевому термину в случае синонимии.
-
Неучёт полисемии и омонимии
-
Неучёт синтагматических отношений.
«Передача электроэнергии из Англии в Шотландию». Если взять эти слова, то выдан будет третий документ. Нужна более сильная координация – аппарат, который бы учитывал синтагматические связи.
-
Отсутствие возможности выдачи близких по смыслу документов.
Отсутствует возможность выдачи документа при частичном совпадении с запросом.
Чистое координатное индексирование – основа для построения любого дескрипторного языка. Чтобы достигнуть высокого качества поиска, следует:
-
устранить синонимию
-
учитывать парадигматические отношения
-
учитывать синтагматические отношения.
7.10.2006
Для устранения полисемии, омонимии, синонимии нужно использовать лексикографический контроль – универсальное средство, которое позволяет контролировать лексический состав языка.
3 степени лексического контроля.
1. Нулевой. При составлении ПОДа и ПОЗа ключевие слова выбираются из текста без учёта ранее использовавшихся ключевых слов.
2. Полный. Для индексирования используют только разрешённые слова. Часто регламентируется не только термин, но и его форма. Для ужесточения контроля иногда берут только основу термина (для стабилизации термина), устраняется многозначность, учитываются парадигматические отношения.
3. Промежуточные варианты.