- •Анализ отдельных слов
- •Анализ отдельных предложений
- •Семантический анализ
- •Заключение
- •Литература
- •Документальные ис.
- •Принцип функционирования ипс.
- •Состав аис.
- •Уровни представления языковых объектов.
- •Основные элементы ипя.
- •Требования к ипя.
- •Типология ипя.
- •Языки предкоординатного типа. Иерархическая классификация.
- •Перечислительные классификации.
- •Фасетные классификации.
- •Посткоординационные ипя.
- •Дескрипторные ипя.
- •Устранение синонимии.
- •Словари лексических единиц.
- •1. Тезаурус.
- •2. Другие виды.
- •Построение словаря дескрипторного языка. Основные характеристики. Анализ и построение словаря дескрипторного языка.
- •Количественные характеристики словарей.
- •Учёт синтагматических отношений.
- •Семантические коды.
- •Системы индексирования.
- •Типы (разновидности) систем индексирования.
- •Подходы к автоматизации индексирования.
- •Системы кодирования.
- •Оценка эффективности поиска.
- •Организация информационных массивов.
- •Стратегии поиска.
- •Элементы теории формальных языков и грамматик Введение.
- •Основные понятия и определения
- •Классификация грамматик и языков по Хомскому
- •Примеры грамматик и языков.
- •Разбор цепочек
- •Преобразования грамматик
- •Задачи.
- •Элементы теории трансляции Введение.
- •Описание модельного языка
- •Лексический анализ
- •О недетерминированном разборе
- •Задачи лексического анализа
- •Лексический анализатор для м-языка
- •Второй этап: по дс пишем программу
- •Задачи.
- •Синтаксический и семантический анализ
- •Метод рекурсивного спуска
- •Void error(); / функция обработки ошибок /
- •О применимости метода рекурсивного спуска
- •Синтаксический анализатор для м-языка
- •О семантическом анализе
- •Семантический анализатор для м-языка
- •Обработка описаний
- •Int declare; /* описан ? 1-"да", 0-"нет" */
- •Void ipush (int I); /* значение I - в стек */
- •Int ipop (void); /* из стека - целое */
- •Контроль контекстных условий в выражении
- •Void spush (char *s); /* значение s - в стек */
- •If (tid [I].Declare) /* описан? */
- •Контроль контекстных условий в операторах
- •Задачи.
- •Генерация внутреннего представления программ
- •Язык внутреннего представления программы
- •Синтаксически управляемый перевод
- •Генератор внутреннего представления программы на м-языке
- •Интерпретатор полиЗа для модельного языка
- •Задачи.
- •Литература
- •Раздел 7 (вопрос 3) Значение когнитивной психологии и структурной лингвистики для автоматизированной обработки текстов на ея
- •Когнитивная лингвистика
- •Когнитивная лингвистика и другие науки
- •Концепция образных схем
- •Концептуальная теория метафоры
- •Формирование когнитивной лингвистики
- •Раздел 7 (вопрос 5) Модель понимания текстов Кинча
- •1.2. Основные положения
- •1.3. Общая характеристика модели
- •Раздел 7 (вопрос 6) Принципы структуризации текстов на основе трансформационной грамматики.
- •Синтактика, семантика и прагматика
- •Знаки и культура
- •Синтагма и парадигма
- •Типы связей между знаком и денотатом
- •Знак. Его значение и смысл
- •Знаковое пространство. Парадигма трех миров
- •Знаковые системы и типы знаков
- •Понятие коннотата
- •Проблема похожести знака на денотат. Ономатопея
- •Случайность и закономерность в знаках и знаковых системах
- •Прагматика – часть семиотики
- •Глава 2. Слова, словари и понятия Слова и словари
- •Акты именования. Семиотические универсалии
- •Треугольник Фреге. Связь между знаком, денотатом и понятием
- •Глава 3. Теория тезауруса Тезаурус. Онтогенез
- •Тезаурус. Определение
- •Популярные тезаурусы и их особенности
- •Теория тезауруса и семиотика
- •Теория тезауруса и информатика
- •Тезаурус. Парадигматика
- •Тезаурусная терминология
- •Популярные тезаурусы и их особенности
- •Глава 4. Эволюция знаковых систем. Законы существования текстов в обществе Постановка проблемы
- •Парадигматика, или правила обращения с текстами
- •Материализация знака. Фактура речи
- •Переход от одной фактуры речи к другой
- •Глава 5. Парадигмы построения эффективных знаковых произведений Общие положения
- •Риторика и ее гуманитарная катастрофа
- •Определение риторики как науки об эффективной деятельности
- •Риторика как прагматика
- •Риторика и логика. Риторика и истина. Образ автора
- •Риторика. Классические парадигмы
- •Понятие риторического изобретения
- •Девиации синтактики и семантики знаков как риторическая парадигма
- •Риторика как технология эффективной деятельности. Теория документа
- •Глава 6. Знаки, люди и законы. Парадигмы их взаимодействия на примере рекламных текстов Американская реклама как сфера общения
- •Коммуникативная структура американской рекламы
- •Авторство и правила обращения с рекламными текстами
- •Роль рекламных текстов в американском обществе
- •Законодательное регулирование рекламной деятельности
- •Законы знакообразования
- •Законодательное регулирование связи знак–денотат в рекламе
- •Прагматика рекламного текста
- •Регулирование собственно рекламной деятельности как производства текстов
- •Рекламоведческие правила
- •Правила сбора информации
- •Синтактика рекламного текста
- •Интеграция с другими типами знаков
- •Прагматический эффект рекламы
- •Реклама – важная часть американской цивилизации
- •Универсальность и прогностический потенциал рекламной парадигмы
- •Нечеткие множества. Основные понятия и определения, подходы к их обработке, операции над нечёткими множествами.
Подходы к автоматизации индексирования.
В основе одних технологий лежат статистические методы, в основе других – различные машинные словари. Наиболее весомые слова по значимости встречаются чаще. На этой гипотезе строится класс систем автоматического индексирования. Алгоритм высчитывает весовые характеристики для каждого термина, ориентируясь на частоту встречаемости. В зависимости от значимости термина происходит включение или невключение его в ПОД.
Второй подход базируется на заранее составленных машинных словарях (фильтрах). Фильтры бывают положительные (для реализации требуется тезаурус, в ПОД включаются только те термины, которые совпадают с терминами тезауруса) и отрицательные (основаны на предварительной разработке словаря запрещённых терминов).
Методика индексирования зависит от того, на каком языке осуществляется индексирование.
Системы кодирования.
Тесно связаны с языковыми средствами и с системой индексирования. В процессе кодирования объектам по определённым правилам присваивают кодовые обозначения. Они определяются алфавитом кода, а структура кода определяется основанием кода и его длиной.
Существует 2 различных подхода к формированию основания кода.
1. Регистрационный – полностью идентифицирует объект, но не содержит никакой информации об объекте в коде.
2. Классификационная система кодирования – обладает ограниченными возможностями идентификации, но содержит информацию об объекте в коде.
Регистрационная система бывает порядковая (базируется на последовательной, порядковой регистрации объектов) и серийно-порядковая (выделяется диапазон серий порядковых номеров для групп сходных объектов). Классификационная система несёт максимум информации об объекте. Она может быть последовательной (значение показателя зависит от значений показателей предыдущих разрядов кодового обозначения, код любой нижестоящей группировки образуется путём добавления существующих разрядов кода вышестоящей группировки) и параллельные (применяется в фасетных языках). Суть параллельных систем – они характеризуются независимым кодированием отдельных признаков, значение показателя каждой части кодового обозначения не зависит друг от друга.
Любая система кодировки должна иметь способы защиты.
Оценка эффективности поиска.
Для того, чтобы оценить эффективность АИС существует ряд категорий показателей.
-
стоимостной показатель
-
семантические показатели (позволяют оценить систему как систему для обработки информации.
a – релевантно выданные документы
b – нерелевантно выданные
c – релевантные невыданные
d – невыданные нерелевантные
Таблицы сопряжённости поиска:
Полнота поиска = a/a+c
Точность поиска = a/a+b
Коэффициент корелляции поиска = ad – bc / √ (a+c)(b+d)(d+c)(a+b).
Энтропийный показатель основывается на том, что измеряется допоисковая энтропия и послепоисковая, и её изменение позволяет судить о том, насколько эффективно сумела произвести поиск система.
Организация информационных массивов.
-
пассивный (массив третьего контура) – хранятся оригиналы документов
-
слабоактивный – в упорядоченном виде содержатся краткие содержания документов
-
активный (первый контур) – содержатся поисковые образы документов. Это есть непосредственно БД. Информационный поиск проводится в этой массивов.
-
Запись информации по полям (наименование единицы данных – поле)
-
Запись – поименованная совокупность полей.
-
Файл – поименованная совокупность экземпляров записей одного типа
-
Набор файлов
Схема записи – совокупность имени записи и имён, составляющих её поля.
В основе различных схем БД лежат различные (конкретные) схемы файлов, записей, связей между ними.
Прямая запись (записи в массиве упорядочены по какому-либо идентификатору – по вертикали, по горизонтали – дескрипторы, участвующие в ПОДах) и инверсная (в качестве исходной записи выступают дескрипторы, в клетках – номера документов, в которые входит этот дескриптор).
В чистом виде ни прямая, ни инверсная схемы не используются, чаще используют комбинированную схему, где один файл построен по прямой, а другой – по инверсной схеме.