Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Материалы учебника по АОТ.doc
Скачиваний:
39
Добавлен:
04.11.2018
Размер:
1.66 Mб
Скачать

2. Другие виды.

Алфавитный словарь – упорядоченные по алфавиту лексические единицы (дескрипторы, дескрипторы + ключевые слова).

Кодовый словарь – перечислены коды лексических единиц, которые систематизированы по убывающему значению кода. Приведён код и значение.

Частотный словарь – упорядоченный по убыванию или возрастанию частоты использования терминов. Его используют при составлении ПОЗа. Повышается полнота выдачи, падает точность.

Пермутационные указатели – словарь организованный по алфавитному признаку, содержит как отдельные лексические единицы, так и компоненты. Предоставляет доступ не только к лексической единице, но и к её частям.

Словарь отрицаний – перечень единиц, запрещённых к использованию при составлении ПОДа.

Иерархический словарь – совокупность отдельных классов дескрипторов, каждый класс включает семантически близкие лексические единицы между которыми установлены иерархические связи.

Словари из отдельных слов и словосочетаний.

Морфологические словари – словари для морфологического анализа. Разнятся по словарям основ слов, словарных окончаний, суффиксов, префиксов и т.д.Каждое слово снабжено определёнными морфологическими характеристиками, то есть морфологический анализ необходим для определения роли слова во фразе.

Построение словаря дескрипторного языка. Основные характеристики. Анализ и построение словаря дескрипторного языка.

Для построения необходимо решить следующие задачи,

  1. выбрать из заданной совокупности текстов лексические единицы

  2. определить семантические и морфологические характеристики

  3. расположить ключевые слова в определённом порядке.

Существуют 3 подхода к составлению словаря.

  1. Априорный – термины выбираются свободно  обрабатываются  строится словарь

  2. Апосториорный – перечень терминов задан более точно  обработка …

  3. Динамический – процесс накопления лексики, когда пополнение словаря, обработка новых лексических единиц и эксплуатация объединены вместе, то есть существует возможность пополнения словаря новыми терминами.

В зависимости от способа построения словаря используются различные количественные характеристики для оценки слов.

Характеристики слов для включения в словарь.

  1. информативность

  2. изменение значение слова во времени

  3. нормализуемость

  4. отношения между словами

  5. синонимия, полисемия, омонимия

Предпочтение отдают наиболее устойчивым по значению словам во времени, стараются исключить наиболее редко и наиболее часто встречающиеся слова. При составлении учитываются связи между терминами: полисемия, синонимия, омонимия, парадигматические связи (чем более учтены связи, тем более сильный словарь). Но это очень трудоёмкая работа, и поэтому чаще всего учитываются только сильные парадигматические отношения и многозначность.

Важно определить детальность словаря. Это – одна из сложных задач. Детализация определяет полноту поиска и его точность. Удобно использовать словари с разной степенью детализации.

Количественные характеристики словарей.

  1. Количество используемых типов слов в списке.

  2. Общее количество лексических единиц ( в совокупности с мощностью языка очень выразителен). Чем больше общее количество единиц и их мощность, тем больше избирательность языка, тем он семантически сильнее.

  3. Коэффициент отображения лексики поискового массива, который включает ключевые слова и отображает лексику словарного массива. Коэффициент = ключевые слова / (ключевые слова + дескрипторы). Чем слова более приближены к тематике, тем этот коэффицент выше.

14.10.2006

  1. Полнота словаря. Насколько полно словарь отражает предметную область, для которой он создан, тем полнее рассчитывается соотношение качества понятий предметной области и количества понятий, которые отражает ИПЯ.

ПС=SПО/SИПЯ ПС1=S0/Sn, где

S0 – количество лексических единиц слов, по которым должен вестись поиск (определяется по масштабу запроса)

Sn – количество отсутствующих в словаре единиц, кот выявляются при сравнении S0 с тем, что есть в словаре.

  1. Коэффицент динамики роста.

K=Sd/D, где Sd – количество введённых в словарь лексических единиц в процессе обработки документов (D).

  1. Ранговое распределение слов (частотное распределение слов). Позволяет оценить лексические единицы с точки зрения частоты использования при индексировании. Оно важно при индексировании, так как включая в поисковый образ слова с малой частотой – растёт точность, а чем больше частота, тем меньше точность.

  2. Распределение лексических единиц по длине. Как правило, оно рассчитывается по отношению к словосочетанию, тогда в качестве такого показателя может служить целая длина, характеризующая степень предкоординатности языка. Если для каждого количества слов определять долю таких словосочетаний по отношению к максимальному числу слов в словосочетаниях.

  3. Распределение лексических единиц по количеству символов. В качестве количественной оценки – среднее количество символов в лексической единице или распределение лексических единиц по количеству символов. Элемен этого распределения: ci=Bi/C, где

Bi – количество слов, которое содержит i символов,

C – максимальное число символов в лексическое единице.