- •Вербальные языки
- •Общее описание вербальных языков
- •Классификации вербальных языков
- •Классификации вербальных языков по принципу формирования их лексики
- •Словари вербальных языков
- •Понятие тезауруса
- •6.3.2. Общие принципы и этапы построения ипт
- •Формирование поискового образа документа с помощью ипт
- •Системы автоматической обработки текстов Виды автоматического анализа текстов
- •Законы Зипфа и их применение
- •Первый закон Зипфа «Ранг ‑ частота»
- •Второй закон Зипфа «количество ‑ частота»
- •Весовые коэффициенты
- •Автоматизация построения ипт
-
Классификации вербальных языков по принципу формирования их лексики
Для формирования лексики ИПЯ используются два принципа – на основе слов (унитерм) и на основе словосочетаний. Реализация поиска по словам осуществить проще, чем по словосочетаниям, ведение словарей экономичней, совместимость смежных систем выше.
Однако, использование «словосочетаний» предоставляет дополнительные возможности отражения семантических связей между понятиями в определённой области знаний. Реализация данных возможностей требует представления системы понятий с помощью специального словаря или хотя бы в виде классификации. Поэтому вербальные языки, построенные на основе «слов», называют лексическими, а на основе «словосочетаний» - понятийными.
При выборе принципа формирования лексики вербальных языков для каждой конкретной ситуации необходимо проводить анализ и принимать решение, что важнее: экономические или качественные параметры поиска. Универсального решения этой проблемы в настоящее время не существует.
-
Словари вербальных языков
-
Понятие тезауруса
Для вербальных языков с контролируемой лексикой словарь является центральным элементом ЛО. Наличие словаря и его тип является важнейшей характеристикой электронных библиотек и конкретных баз данных (БД), входящих в их состав.
Наиболее развитым вариантом словаря вербальных языков является тезаурус. Под тезаурусом понимается список особых лексических единиц, представленных в виде слов или словосочетаний, с зафиксированными логическими отношениями, благодаря которым возможна их взаимная синонимическая замена.
Тезаурусы разделяют на общеязыковые (или лингвистические) и информационно-поисковые тезаурусы (ИПТ).
По сути тезаурус представляет собой словарь терминов и классификационных связей между ними для некоторой области знаний.
Формально ИПТ представляет собой список дескрипторов и аскрипторов, упорядоченный по систематическому и алфавитному принципам и содержащий указания на имеющиеся между ними любые смысловые отношения.
Аскриптор (нондескриптор, недескриптор) ‑ лексическая единица в ИПТ, которая не может быть использована для координатного индексирования и подлежит замене одним или несколькими заменяющими её дескрипторами.
Основное назначение ИПТ – перевод на информационно-поисковый язык смыслового содержания документов и запросов.
ИПТ помогают установить соответствие между терминологией автора документа, терминологией ИПС и терминологией автора запроса.
Форма, структура, методика создания и использования ИПТ в его классическом варианте зафиксирована международными и российскими стандартами в соответствии с рекомендациями международной организации по стандартизации (ИСО). Существует также стандарт на построение многоязычного информационно-поискового тезауруса, ориентированный на представление запроса на одном естественном языке, в ситуациях, когда поисковый массив представлен на другом языке.
В зависимости от тематического профиля ИПТ подразделяют на универсальные и отраслевые. В информационно-библиотечных системах наиболее часто применяются отраслевые ИПТ, в которых корректно и четко представлена терминологическая система определенной научной отрасли. Например, в области образования используется Тезаурус ЮНЕСКО Международного бюро просвещения по образованию.
Международными сообществами ведется активная работа по созданию универсального тезауруса, который мог бы лечь в основу широко тематической ЭБ
Упрощенными вариантами тезауруса являются следующие словари:
-
иерархический словарь (включающий иерархические отношения),
-
дескрипторный словарь (включающий только отношения синонимии),
-
словник, не включающих никаких отношений между лексическими единицами и представляющий простой перечень поисковых терминов (ключевых слов).