- •Анализ отдельных слов
- •Анализ отдельных предложений
- •Семантический анализ
- •Заключение
- •Литература
- •Документальные ис.
- •Принцип функционирования ипс.
- •Состав аис.
- •Уровни представления языковых объектов.
- •Основные элементы ипя.
- •Требования к ипя.
- •Типология ипя.
- •Языки предкоординатного типа. Иерархическая классификация.
- •Перечислительные классификации.
- •Фасетные классификации.
- •Посткоординационные ипя.
- •Дескрипторные ипя.
- •Устранение синонимии.
- •Словари лексических единиц.
- •1. Тезаурус.
- •2. Другие виды.
- •Построение словаря дескрипторного языка. Основные характеристики. Анализ и построение словаря дескрипторного языка.
- •Количественные характеристики словарей.
- •Учёт синтагматических отношений.
- •Семантические коды.
- •Системы индексирования.
- •Типы (разновидности) систем индексирования.
- •Подходы к автоматизации индексирования.
- •Системы кодирования.
- •Оценка эффективности поиска.
- •Организация информационных массивов.
- •Стратегии поиска.
- •Элементы теории формальных языков и грамматик Введение.
- •Основные понятия и определения
- •Классификация грамматик и языков по Хомскому
- •Примеры грамматик и языков.
- •Разбор цепочек
- •Преобразования грамматик
- •Задачи.
- •Элементы теории трансляции Введение.
- •Описание модельного языка
- •Лексический анализ
- •О недетерминированном разборе
- •Задачи лексического анализа
- •Лексический анализатор для м-языка
- •Второй этап: по дс пишем программу
- •Задачи.
- •Синтаксический и семантический анализ
- •Метод рекурсивного спуска
- •Void error(); / функция обработки ошибок /
- •О применимости метода рекурсивного спуска
- •Синтаксический анализатор для м-языка
- •О семантическом анализе
- •Семантический анализатор для м-языка
- •Обработка описаний
- •Int declare; /* описан ? 1-"да", 0-"нет" */
- •Void ipush (int I); /* значение I - в стек */
- •Int ipop (void); /* из стека - целое */
- •Контроль контекстных условий в выражении
- •Void spush (char *s); /* значение s - в стек */
- •If (tid [I].Declare) /* описан? */
- •Контроль контекстных условий в операторах
- •Задачи.
- •Генерация внутреннего представления программ
- •Язык внутреннего представления программы
- •Синтаксически управляемый перевод
- •Генератор внутреннего представления программы на м-языке
- •Интерпретатор полиЗа для модельного языка
- •Задачи.
- •Литература
- •Раздел 7 (вопрос 3) Значение когнитивной психологии и структурной лингвистики для автоматизированной обработки текстов на ея
- •Когнитивная лингвистика
- •Когнитивная лингвистика и другие науки
- •Концепция образных схем
- •Концептуальная теория метафоры
- •Формирование когнитивной лингвистики
- •Раздел 7 (вопрос 5) Модель понимания текстов Кинча
- •1.2. Основные положения
- •1.3. Общая характеристика модели
- •Раздел 7 (вопрос 6) Принципы структуризации текстов на основе трансформационной грамматики.
- •Синтактика, семантика и прагматика
- •Знаки и культура
- •Синтагма и парадигма
- •Типы связей между знаком и денотатом
- •Знак. Его значение и смысл
- •Знаковое пространство. Парадигма трех миров
- •Знаковые системы и типы знаков
- •Понятие коннотата
- •Проблема похожести знака на денотат. Ономатопея
- •Случайность и закономерность в знаках и знаковых системах
- •Прагматика – часть семиотики
- •Глава 2. Слова, словари и понятия Слова и словари
- •Акты именования. Семиотические универсалии
- •Треугольник Фреге. Связь между знаком, денотатом и понятием
- •Глава 3. Теория тезауруса Тезаурус. Онтогенез
- •Тезаурус. Определение
- •Популярные тезаурусы и их особенности
- •Теория тезауруса и семиотика
- •Теория тезауруса и информатика
- •Тезаурус. Парадигматика
- •Тезаурусная терминология
- •Популярные тезаурусы и их особенности
- •Глава 4. Эволюция знаковых систем. Законы существования текстов в обществе Постановка проблемы
- •Парадигматика, или правила обращения с текстами
- •Материализация знака. Фактура речи
- •Переход от одной фактуры речи к другой
- •Глава 5. Парадигмы построения эффективных знаковых произведений Общие положения
- •Риторика и ее гуманитарная катастрофа
- •Определение риторики как науки об эффективной деятельности
- •Риторика как прагматика
- •Риторика и логика. Риторика и истина. Образ автора
- •Риторика. Классические парадигмы
- •Понятие риторического изобретения
- •Девиации синтактики и семантики знаков как риторическая парадигма
- •Риторика как технология эффективной деятельности. Теория документа
- •Глава 6. Знаки, люди и законы. Парадигмы их взаимодействия на примере рекламных текстов Американская реклама как сфера общения
- •Коммуникативная структура американской рекламы
- •Авторство и правила обращения с рекламными текстами
- •Роль рекламных текстов в американском обществе
- •Законодательное регулирование рекламной деятельности
- •Законы знакообразования
- •Законодательное регулирование связи знак–денотат в рекламе
- •Прагматика рекламного текста
- •Регулирование собственно рекламной деятельности как производства текстов
- •Рекламоведческие правила
- •Правила сбора информации
- •Синтактика рекламного текста
- •Интеграция с другими типами знаков
- •Прагматический эффект рекламы
- •Реклама – важная часть американской цивилизации
- •Универсальность и прогностический потенциал рекламной парадигмы
- •Нечеткие множества. Основные понятия и определения, подходы к их обработке, операции над нечёткими множествами.
2. Другие виды.
Алфавитный словарь – упорядоченные по алфавиту лексические единицы (дескрипторы, дескрипторы + ключевые слова).
Кодовый словарь – перечислены коды лексических единиц, которые систематизированы по убывающему значению кода. Приведён код и значение.
Частотный словарь – упорядоченный по убыванию или возрастанию частоты использования терминов. Его используют при составлении ПОЗа. Повышается полнота выдачи, падает точность.
Пермутационные указатели – словарь организованный по алфавитному признаку, содержит как отдельные лексические единицы, так и компоненты. Предоставляет доступ не только к лексической единице, но и к её частям.
Словарь отрицаний – перечень единиц, запрещённых к использованию при составлении ПОДа.
Иерархический словарь – совокупность отдельных классов дескрипторов, каждый класс включает семантически близкие лексические единицы между которыми установлены иерархические связи.
Словари из отдельных слов и словосочетаний.
Морфологические словари – словари для морфологического анализа. Разнятся по словарям основ слов, словарных окончаний, суффиксов, префиксов и т.д.Каждое слово снабжено определёнными морфологическими характеристиками, то есть морфологический анализ необходим для определения роли слова во фразе.
Построение словаря дескрипторного языка. Основные характеристики. Анализ и построение словаря дескрипторного языка.
Для построения необходимо решить следующие задачи,
-
выбрать из заданной совокупности текстов лексические единицы
-
определить семантические и морфологические характеристики
-
расположить ключевые слова в определённом порядке.
Существуют 3 подхода к составлению словаря.
-
Априорный – термины выбираются свободно обрабатываются строится словарь
-
Апосториорный – перечень терминов задан более точно обработка …
-
Динамический – процесс накопления лексики, когда пополнение словаря, обработка новых лексических единиц и эксплуатация объединены вместе, то есть существует возможность пополнения словаря новыми терминами.
В зависимости от способа построения словаря используются различные количественные характеристики для оценки слов.
Характеристики слов для включения в словарь.
-
информативность
-
изменение значение слова во времени
-
нормализуемость
-
отношения между словами
-
синонимия, полисемия, омонимия
Предпочтение отдают наиболее устойчивым по значению словам во времени, стараются исключить наиболее редко и наиболее часто встречающиеся слова. При составлении учитываются связи между терминами: полисемия, синонимия, омонимия, парадигматические связи (чем более учтены связи, тем более сильный словарь). Но это очень трудоёмкая работа, и поэтому чаще всего учитываются только сильные парадигматические отношения и многозначность.
Важно определить детальность словаря. Это – одна из сложных задач. Детализация определяет полноту поиска и его точность. Удобно использовать словари с разной степенью детализации.
Количественные характеристики словарей.
-
Количество используемых типов слов в списке.
-
Общее количество лексических единиц ( в совокупности с мощностью языка очень выразителен). Чем больше общее количество единиц и их мощность, тем больше избирательность языка, тем он семантически сильнее.
-
Коэффициент отображения лексики поискового массива, который включает ключевые слова и отображает лексику словарного массива. Коэффициент = ключевые слова / (ключевые слова + дескрипторы). Чем слова более приближены к тематике, тем этот коэффицент выше.
14.10.2006
-
Полнота словаря. Насколько полно словарь отражает предметную область, для которой он создан, тем полнее рассчитывается соотношение качества понятий предметной области и количества понятий, которые отражает ИПЯ.
ПС=SПО/SИПЯ ПС1=S0/Sn, где
S0 – количество лексических единиц слов, по которым должен вестись поиск (определяется по масштабу запроса)
Sn – количество отсутствующих в словаре единиц, кот выявляются при сравнении S0 с тем, что есть в словаре.
-
Коэффицент динамики роста.
K=Sd/D, где Sd – количество введённых в словарь лексических единиц в процессе обработки документов (D).
-
Ранговое распределение слов (частотное распределение слов). Позволяет оценить лексические единицы с точки зрения частоты использования при индексировании. Оно важно при индексировании, так как включая в поисковый образ слова с малой частотой – растёт точность, а чем больше частота, тем меньше точность.
-
Распределение лексических единиц по длине. Как правило, оно рассчитывается по отношению к словосочетанию, тогда в качестве такого показателя может служить целая длина, характеризующая степень предкоординатности языка. Если для каждого количества слов определять долю таких словосочетаний по отношению к максимальному числу слов в словосочетаниях.
-
Распределение лексических единиц по количеству символов. В качестве количественной оценки – среднее количество символов в лексической единице или распределение лексических единиц по количеству символов. Элемен этого распределения: ci=Bi/C, где
Bi – количество слов, которое содержит i символов,
C – максимальное число символов в лексическое единице.