Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2 курс_ИС_УМК_Попова.doc
Скачиваний:
8
Добавлен:
24.08.2019
Размер:
310.27 Кб
Скачать

Вопрос 3. Требования к ипя. При разработке конкретного ипя учитываются:

  • специфика отрасли или предмета, для которой этот язык создаётся,

  • особенности текстов, образующих поисковый массив,

  • характер информационных потребностей, для удовлетворения которых создается язык.

В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких языках выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными. ИПЯ отличается от информационного языка и от машинного. В середине 20 в. в качестве ИПЯ широко применялись библиотечно-библиографические классификации и классификации дескрипторного типа).

Главная отличительная особенность ИПЯ — простота лексики и грамматики по сравнению с теми же элементами естественного языка. Требования, предъявляемые к ИПЯ: однозначность, точность и недвусмысленность семантики (каждая запись ИПЯ должна иметь точно определенное и одно-единственное значение); большая семантическая сила (словарь должен включать все термины, необходимые для индексирования документов и запросов); удобство для пользования; простота и немногочисленность грамматических средств.

ЛЕКЦИЯ 4

Классификация информационно-поисковых языков

Учебная презентация

Вопросы:

  1. Типы и виды ИПЯ.

  2. ИПЯ дескрипторного типа.

  3. Методика построения и грамматика ИПЯ дескрипторного типа.

Вопрос 1. Типы и виды ИПЯ. В настоящее время существует множество типов и видов ИПЯ. Наиболее распространенными подходами к классификации ИПЯ являются: классификация Ф.Ланкастера, классификация ВИНИТИ, классификация ЛГИК им. Н.К.Крупской. Последняя классификация представляется наиболее логичной. В ее основу положены три видообразующих признака, учитывающих основные структурные элементы языка: лексику, парадигматику и синтагматику. К этим признакам относятся способ задания лексических единиц, способ кодирования (сочетания) лексических единиц и способ учета парадигматических отношений. Принимается во внимание и возможность автоматизированного поиска.

  1. По способу задания лексических единиц: контролируемые и неконтролируемые. Контролируемые ИПЯ — языки, лексика которых задается заранее с помощью словарей и таблиц (УДК, ББК). Неконтролируемые ИПЯ — языки, лексика которых не задается словарем, а строится на основе выбора неограниченного множества терминов естественного языка из индексируемых сообщений.

  2. По координации лексических единиц (способу записи): некоординируемые и координируемые. Некоординируемые ИПЯ — языки, не допускающие координации своих лексических единиц ни в процессе индексирования, ни в процессе поиска. Координируемые ИПЯ — языки, в которых лексические единицы координируются между собой или в процессе индексирования, или в процессе поиска. Различают Предкоординируемые и посткоординируемые ИПЯ. Предкоординируемые языки устанавливают порядок записи лексических единиц в процессе индексирования по заранее определенным правилам и предусматривается их жесткая последовательность. Как правило, используются в ручном поиске. Посткоординируемые ИПЯ — языки, в которых лексические единицы задаются в процессе индексирования и сочетаются между собой только в процессе поиска.

  3. С учетом и без учета парадигматических отношений: иерархические, фасетные и неиерархические. Языки иерархической структуры представляют собой иерархическую классификацию — систему классов, по которым распределяются понятия на основании наиболее существенных признаков, присущих этим понятиям и отличающих их друг от друга. Класс — совокупность объектов, имеющих один или несколько общих содержательных признаков. Недостаток — невозможность организации внеиерархических связей (иерархическая модель данных — невозможность перекрестных запросов).

Пример иерархической классификации:

  1. Документы

    1. Иконические

    2. Идеографические

    3. Текстовые

      1. Первичные

1.3.1.1 Неопубликованные

1.3.1. 2 Опубликованные

1.3.2 Вторичные

Языки фасетной структуры представляют собой фасетную классификацию — совокупность фасетов, следующих друг за другом в определенной последовательности. В основе построения такой классификации лежит индуктивный метод, который предполагает исследование отдельных предметов множества, нахождение в них общих существенных признаков и группировку на основе последних терминов, обозначающих эти понятия.

Пример фасетной классификации:

1 Документы по знаковой форме представления информации

    1. Идеографические

    2. Иконические

    3. Текстовые

  1. Документы по способу распространения

    1. Неопубликованные

    2. Опубликованные

  2. Документы по периодичности изданий

    1. Непериодические

    2. Периодические

    3. Продолжающиеся

Языки неиерархической структуры являются продуктом эмпирического подхода к построению ИПЯ. Такой подход предполагает создание языка на основе индексирования реальных текстов. Из содержания документа выбираются ключевые слова, которые преобразуются в лексические единицы ИПЯ (ТАСТ, алфавитно-предметная классификация).

К специальным неиерархическим ИПЯ с учетом сильных и слабых прардигматических отношений относится дескрипторный язык.

Вопрос 2. ИПЯ дескрипторного типа. Дескрипторные ИПЯ — искусственные информационные языки, появившиеся 1950-ых годах. Возможность и необходимость их создания были вызваны рядом объективных причин. В эти годы были разработаны первые механизированные системы поиска информации и предпринята попытка использования ЭВМ для решения разнообразных информационно-поисковых задач. Традиционные языки предкоординатного тиап не соответствовали требованиям механизированного, а в дальнейшем автоматизированного поиска информации. Интенсивный поиск новых семантических средств привел к созданию принципиально новых ИПЯ посткоординатного типа. Основы индексирования данных языков были заложены в работах М.Тауба и К.Муерса за рубежом и В.П.Черенина в СССР.

М.Тауб в 1951 году разработал ИПЯ унитермов, т.е. неформализованных единичных терминов, перечнем которых можно достаточно полно и точно передать содержание документа и запроса. Координация унитермов происходит в момент поиска сообщения после получения запроса. Однако этот язык не отвечал требованию однозначности. И нуждался в совершенствовании. В своем первоначальном виде ИПЯ унитермов не применяются. Зато широко распространился ИПЯ унитермов с искусственной грамматикой, который принято называть дескрипторным.

Понятие о дескрипторе ввел в информатику К.Муерс. (Дескриптор — позднелат. descriptor, от лат. describо — описываю). Он предложил уитывать синонимию в языке унитермов и применять лексикографический контроль за используемыми ключевыми словами, который заключался в их нормализации и полном устранении неоднозначности и многозначности. К.Муерс считал, что для контроля лексики должен составляться специальный дескрипторный словарь

Таким образом, дескрипторный язык — искусственный язык посткоординатного типа, построенный на безе формализованной лексики естественного языка. Для контроля лексики создается информационно-поисковый тезаурус (ИПТ) — контролируемый словарь лексических единиц дескрипторного языка, основанный на лексике одного естественного языка, отображающий семантические отношения между лексическими единицами и предназначенный для организации поиска информации путем индексирования документов и/или запросов. Каждый конкретный ИПЯ отражает систему понятий предметной области знания в виде структурированной совокупности терминов и является результатом серьезной и трудоемкой работы.