2. Другие виды.

Алфавитный словарь – упорядоченные по алфавиту лексические единицы (дескрипторы, дескрипторы + ключевые слова).

Кодовый словарь – перечислены коды лексических единиц, которые систематизированы по убывающему значению кода. Приведён код и значение.

Частотный словарь – упорядоченный по убыванию или возрастанию частоты использования терминов. Его используют при составлении ПОЗа. Повышается полнота выдачи, падает точность.

Пермутационные указатели – словарь организованный по алфавитному признаку, содержит как отдельные лексические единицы, так и компоненты. Предоставляет доступ не только к лексической единице, но и к её частям.

Словарь отрицаний – перечень единиц, запрещённых к использованию при составлении ПОДа.

Иерархический словарь – совокупность отдельных классов дескрипторов, каждый класс включает семантически близкие лексические единицы между которыми установлены иерархические связи.

Словари из отдельных слов и словосочетаний.

Морфологические словари – словари для морфологического анализа. Разнятся по словарям основ слов, словарных окончаний, суффиксов, префиксов и т.д.Каждое слово снабжено определёнными морфологическими характеристиками, то есть морфологический анализ необходим для определения роли слова во фразе.

Построение словаря дескрипторного языка. Основные характеристики. Анализ и построение словаря дескрипторного языка.

Для построения необходимо решить следующие задачи,

выбрать из заданной совокупности текстов лексические единицы
определить семантические и морфологические характеристики
расположить ключевые слова в определённом порядке.

Существуют 3 подхода к составлению словаря.

Априорный – термины выбираются свободно  обрабатываются  строится словарь
Апосториорный – перечень терминов задан более точно  обработка …
Динамический – процесс накопления лексики, когда пополнение словаря, обработка новых лексических единиц и эксплуатация объединены вместе, то есть существует возможность пополнения словаря новыми терминами.

В зависимости от способа построения словаря используются различные количественные характеристики для оценки слов.

Характеристики слов для включения в словарь.

информативность
изменение значение слова во времени
нормализуемость
отношения между словами
синонимия, полисемия, омонимия

Предпочтение отдают наиболее устойчивым по значению словам во времени, стараются исключить наиболее редко и наиболее часто встречающиеся слова. При составлении учитываются связи между терминами: полисемия, синонимия, омонимия, парадигматические связи (чем более учтены связи, тем более сильный словарь). Но это очень трудоёмкая работа, и поэтому чаще всего учитываются только сильные парадигматические отношения и многозначность.

Важно определить детальность словаря. Это – одна из сложных задач. Детализация определяет полноту поиска и его точность. Удобно использовать словари с разной степенью детализации.

Количественные характеристики словарей.

Количество используемых типов слов в списке.
Общее количество лексических единиц ( в совокупности с мощностью языка очень выразителен). Чем больше общее количество единиц и их мощность, тем больше избирательность языка, тем он семантически сильнее.
Коэффициент отображения лексики поискового массива, который включает ключевые слова и отображает лексику словарного массива. Коэффициент = ключевые слова / (ключевые слова + дескрипторы). Чем слова более приближены к тематике, тем этот коэффицент выше.

14.10.2006

Полнота словаря. Насколько полно словарь отражает предметную область, для которой он создан, тем полнее рассчитывается соотношение качества понятий предметной области и количества понятий, которые отражает ИПЯ.

П_С=S_ПО/S_ИПЯ П_С1=S₀/S_n, где

S₀– количество лексических единиц слов, по которым должен вестись поиск (определяется по масштабу запроса)

S_n – количество отсутствующих в словаре единиц, кот выявляются при сравнении S₀с тем, что есть в словаре.

Коэффицент динамики роста.

K=S_d/D, где S_d – количество введённых в словарь лексических единиц в процессе обработки документов (D).

Ранговое распределение слов (частотное распределение слов). Позволяет оценить лексические единицы с точки зрения частоты использования при индексировании. Оно важно при индексировании, так как включая в поисковый образ слова с малой частотой – растёт точность, а чем больше частота, тем меньше точность.
Распределение лексических единиц по длине. Как правило, оно рассчитывается по отношению к словосочетанию, тогда в качестве такого показателя может служить целая длина, характеризующая степень предкоординатности языка. Если для каждого количества слов определять долю таких словосочетаний по отношению к максимальному числу слов в словосочетаниях.
Распределение лексических единиц по количеству символов. В качестве количественной оценки – среднее количество символов в лексической единице или распределение лексических единиц по количеству символов. Элемен этого распределения: c_i=B_i/C, где

B_i– количество слов, которое содержит i символов,

C – максимальное число символов в лексическое единице.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 7111 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
03.12.2018136.99 Кб22Материалы к тесту.docx
#
08.12.201888.75 Кб111Материалы по Констр псих .docx
#
27.04.2019274.43 Кб5Материалы по отечественным экономико-географам.doc
#
15.11.2018536.06 Кб17материалы по психологии-ляляля (1).doc
#
19.07.201989.09 Кб5Материалы по ударениям, падежам и пр. из методи....doc
#
04.11.20181.66 Mб39Материалы учебника по АОТ.doc
#
26.11.2018209.41 Кб1Материалы.DOC
#
20.11.2018103.42 Кб1Материалыпо педпрактие 5 курса.doc
#
23.11.2019171.52 Кб15Материя и бытие.doc
#
09.11.2019100.35 Кб0Матрица рентабельности как средство управления...doc
#
10.07.2019300.03 Кб1Матрица.doc