- •Оглавление
- •Введение
- •Распределение часов курса по темам и видам работы
- • Литература
- •Конспект лекций
- •Вопрос 3. Классификация ис. Фактографические и документальные ис. Все многообразие ис классифицируется по присущим им признакам:
- •Лекция 3 Информационно-поисковые языки
- •Вопрос 2. Упорядочение лексических единиц ипя. Для упорядочения лексических единиц ипя служат парадигматические отношения, которые фактически определяют и задают структуру языка.
- •Вопрос 3. Требования к ипя. При разработке конкретного ипя учитываются:
- •Классификация информационно-поисковых языков
- •Вопрос 3. Методика построения и грамматика ипя дескрипторного типа. Разработка ипт осуществляется на основе следующих этапов:
- •Распределенные информационные системы
- •Вопрос 2. Система World Wide Web.
- •Экспертные системы
- •Вопрос 3. Виды эс. Экспертные системы создаются для решения разного рода проблем, но основные типы их деятельности можно сгруппировать в следующие категории:
- •Тематический поиск информации в сети интернет
- •Разработка структуры и создание базы данных "кадры"
- •Тестовые задания по курсу
- • Вопросы к зачету
Вопрос 3. Требования к ипя. При разработке конкретного ипя учитываются:
специфика отрасли или предмета, для которой этот язык создаётся,
особенности текстов, образующих поисковый массив,
характер информационных потребностей, для удовлетворения которых создается язык.
В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких языках выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными. ИПЯ отличается от информационного языка и от машинного. В середине 20 в. в качестве ИПЯ широко применялись библиотечно-библиографические классификации и классификации дескрипторного типа).
Главная отличительная особенность ИПЯ — простота лексики и грамматики по сравнению с теми же элементами естественного языка. Требования, предъявляемые к ИПЯ: однозначность, точность и недвусмысленность семантики (каждая запись ИПЯ должна иметь точно определенное и одно-единственное значение); большая семантическая сила (словарь должен включать все термины, необходимые для индексирования документов и запросов); удобство для пользования; простота и немногочисленность грамматических средств.
ЛЕКЦИЯ 4
Классификация информационно-поисковых языков
Учебная презентация
Вопросы:
Типы и виды ИПЯ.
ИПЯ дескрипторного типа.
Методика построения и грамматика ИПЯ дескрипторного типа.
Вопрос 1. Типы и виды ИПЯ. В настоящее время существует множество типов и видов ИПЯ. Наиболее распространенными подходами к классификации ИПЯ являются: классификация Ф.Ланкастера, классификация ВИНИТИ, классификация ЛГИК им. Н.К.Крупской. Последняя классификация представляется наиболее логичной. В ее основу положены три видообразующих признака, учитывающих основные структурные элементы языка: лексику, парадигматику и синтагматику. К этим признакам относятся способ задания лексических единиц, способ кодирования (сочетания) лексических единиц и способ учета парадигматических отношений. Принимается во внимание и возможность автоматизированного поиска.
По способу задания лексических единиц: контролируемые и неконтролируемые. Контролируемые ИПЯ — языки, лексика которых задается заранее с помощью словарей и таблиц (УДК, ББК). Неконтролируемые ИПЯ — языки, лексика которых не задается словарем, а строится на основе выбора неограниченного множества терминов естественного языка из индексируемых сообщений.
По координации лексических единиц (способу записи): некоординируемые и координируемые. Некоординируемые ИПЯ — языки, не допускающие координации своих лексических единиц ни в процессе индексирования, ни в процессе поиска. Координируемые ИПЯ — языки, в которых лексические единицы координируются между собой или в процессе индексирования, или в процессе поиска. Различают Предкоординируемые и посткоординируемые ИПЯ. Предкоординируемые языки устанавливают порядок записи лексических единиц в процессе индексирования по заранее определенным правилам и предусматривается их жесткая последовательность. Как правило, используются в ручном поиске. Посткоординируемые ИПЯ — языки, в которых лексические единицы задаются в процессе индексирования и сочетаются между собой только в процессе поиска.
С учетом и без учета парадигматических отношений: иерархические, фасетные и неиерархические. Языки иерархической структуры представляют собой иерархическую классификацию — систему классов, по которым распределяются понятия на основании наиболее существенных признаков, присущих этим понятиям и отличающих их друг от друга. Класс — совокупность объектов, имеющих один или несколько общих содержательных признаков. Недостаток — невозможность организации внеиерархических связей (иерархическая модель данных — невозможность перекрестных запросов).
Пример иерархической классификации:
Документы
Иконические
Идеографические
Текстовые
Первичные
1.3.1.1 Неопубликованные
1.3.1. 2 Опубликованные
1.3.2 Вторичные
Языки фасетной структуры представляют собой фасетную классификацию — совокупность фасетов, следующих друг за другом в определенной последовательности. В основе построения такой классификации лежит индуктивный метод, который предполагает исследование отдельных предметов множества, нахождение в них общих существенных признаков и группировку на основе последних терминов, обозначающих эти понятия.
Пример фасетной классификации:
1 Документы по знаковой форме представления информации
Идеографические
Иконические
Текстовые
Документы по способу распространения
Неопубликованные
Опубликованные
Документы по периодичности изданий
Непериодические
Периодические
Продолжающиеся
Языки неиерархической структуры являются продуктом эмпирического подхода к построению ИПЯ. Такой подход предполагает создание языка на основе индексирования реальных текстов. Из содержания документа выбираются ключевые слова, которые преобразуются в лексические единицы ИПЯ (ТАСТ, алфавитно-предметная классификация).
К специальным неиерархическим ИПЯ с учетом сильных и слабых прардигматических отношений относится дескрипторный язык.
Вопрос 2. ИПЯ дескрипторного типа. Дескрипторные ИПЯ — искусственные информационные языки, появившиеся 1950-ых годах. Возможность и необходимость их создания были вызваны рядом объективных причин. В эти годы были разработаны первые механизированные системы поиска информации и предпринята попытка использования ЭВМ для решения разнообразных информационно-поисковых задач. Традиционные языки предкоординатного тиап не соответствовали требованиям механизированного, а в дальнейшем автоматизированного поиска информации. Интенсивный поиск новых семантических средств привел к созданию принципиально новых ИПЯ посткоординатного типа. Основы индексирования данных языков были заложены в работах М.Тауба и К.Муерса за рубежом и В.П.Черенина в СССР.
М.Тауб в 1951 году разработал ИПЯ унитермов, т.е. неформализованных единичных терминов, перечнем которых можно достаточно полно и точно передать содержание документа и запроса. Координация унитермов происходит в момент поиска сообщения после получения запроса. Однако этот язык не отвечал требованию однозначности. И нуждался в совершенствовании. В своем первоначальном виде ИПЯ унитермов не применяются. Зато широко распространился ИПЯ унитермов с искусственной грамматикой, который принято называть дескрипторным.
Понятие о дескрипторе ввел в информатику К.Муерс. (Дескриптор — позднелат. descriptor, от лат. describо — описываю). Он предложил уитывать синонимию в языке унитермов и применять лексикографический контроль за используемыми ключевыми словами, который заключался в их нормализации и полном устранении неоднозначности и многозначности. К.Муерс считал, что для контроля лексики должен составляться специальный дескрипторный словарь
Таким образом, дескрипторный язык — искусственный язык посткоординатного типа, построенный на безе формализованной лексики естественного языка. Для контроля лексики создается информационно-поисковый тезаурус (ИПТ) — контролируемый словарь лексических единиц дескрипторного языка, основанный на лексике одного естественного языка, отображающий семантические отношения между лексическими единицами и предназначенный для организации поиска информации путем индексирования документов и/или запросов. Каждый конкретный ИПЯ отражает систему понятий предметной области знания в виде структурированной совокупности терминов и является результатом серьезной и трудоемкой работы.