Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИС ответы.doc
Скачиваний:
14
Добавлен:
04.08.2019
Размер:
564.74 Кб
Скачать

26. Назначение и архитектура протокола z39.50. Понятие абстрактной базы данных.

Данный протокол ориентирован на информационный поиск в удаленных базах данных. Это — протокол прикладного уровня в рамках семиуровневой эталонной модели взаимодействия от­крытых систем, разработанной Международной Организацией Стандартов (ISO), и поэтому может быть реализован в различ­ных типах сетей (например, в сетях TCP/IP, IPX/SPX, OSI) не­зависимо от реализации транспортного уровня. Его назначе­ние — предоставить компьютеру, работающему в режиме «кли­ент», возможности поиска и извлечения информации из другого компьютера, работающего как информационный сервер.

Особенностями протокола Z39.50 является возможность со­хранения состояний системы и присвоение каждому состоянию соответствующего идентификатора. Эта особенность протокола позволяет производить «навигацию во времени» т. е. в любой момент можно вернуться в определенную точку поиска, произ­веденного ранее. Наличие такой «памяти» позволяет использо­вать результаты, полученные ранее, в составлении дальнейших запросов.

Первоначально многие Z39.50-приложения создавались ис­ключительно для использования с библиографическими данны­ми (например, электронные Online-версии библиотечных ката­логов). Однако в настоящее время протокол развит настолько, что позволяет обрабатывать различные данные — финансовую, химическую, техническую информацию, тексты и изображения.

Технология сетевого доступа к базам данных по протоколу Z39.50 существенно отличается от других технологий. Различие обусловлено самой сутью протокола: его ориентацией на работу с базами данных, абстрагированных от конкретных систем.

Состав протокола Z39.50. В основе Z39.50 лежит модель аб­страктной базы данных. Каждый элемент этой модели имеет описание с однозначным толкованием и стандартизуется с при­своением уникального идентификатора — OID.

Термин база данных в спецификации Z39.50 означает набор файлов, каждый из которых имеет свое уникальное имя. Едини­цей хранения информации, которая может быть найдена при об­ращении к базе данных, является запись файла. Все записи од­ного файла должны иметь одинаковую структуру (т. е. состоять из одного и того же набора элементов и точек доступа). Точка доступа — это уникальный или неуникальный ключ, который может быть указан самостоятельно или в совокупности с други­ми ключами в поисковом критерии. Ключ может быть элемен­том данных, состоять из нескольких элементов или быть частью

элемента. __

Работа с каждой конкретной СУБД согласно Z39.50 должна быть организована только через эту абстрактную модель путем обмена пакетами данных (PDU), содержащими последователь­ности объектов, идентифицируемых по меткам. В стандарте опи­саны следующие классы объектов:

  • контекст приложения (context);

  • протокольные блоки данных — protocol data unit (pdu);

  • атрибуты (attributeset);

  • диагностика (diagnostic);

  • структура записей (recordsyntax);

  • синтаксис преобразований (transfersyntax);

  • отчет по ресурсам (resourcereport);

  • контроль доступа (accesscontrol);

  • расширенный сервис (extendedservice);

  • пользовательская информация (userinfoformat);

  • элементы (elementspec);

  • варианты (variantset);

  • схема данных (schema);

  • схема меток (tagset).

Внутри класса объекты идентифицируются номерами, добав­ляемыми к номеру класса. Например, в классе recordSyntax {1.2.840.10003.5} объекты имеют OID:

Unimarc {1.2.840.10003.5.1},

USmarc {1.2.840.10003.5.10},

sutrs {1.2.840.10003.5.101} и т. п.

Модель службы Z39.50 предусматривает обмен сообщениями типа «запрос—ответ» между соответствующими приложения­ми _ клиентом и сервером. Формат таких сообщений и опреде­ляется протоколом Z39.50. После установления ТСР-соединения (или любого другого, зависящего от способа передачи данных) устанавливается Z39.50-coefliiHeHvie, посредством обмена прото­кольными блоками данных — Protocol Data Unit (PDU).

PDU состоят из набора тегов, определяющих тип PDU (за­прос или ответ на инициализацию сессии, запрос на поиск, ре­зультат поиска, запрос представления, ответ представления, за­прос или ответ на закрытие сессии и т. д.), физические парамет­ры сеанса, виды услуг, поддерживаемых клиентом и сервером, параметры поиска, содержание запроса, сообщения о проведен­ном поиске и т. д.

Получив от клиента PDU на инициализацию сессии, сервер формирует ответ — сообщения о параметрах сеанса, видах услуг, поддерживаемых клиентом и сервером, после получения которо­го клиентом Z39.50-соединение считается установленным. Далее клиент может либо продолжить работу с такими параметрами, либо закрыть соединение и попытаться затем установить но­вое — быть может, с другими параметрами. Передавать запрос на поиск информации пользователь может только после уста­новки соединения.

Таким образом, протокол Z39.50 описывает интерактивную сессию между источником запросов и приемником, обслуживаю­щим эти запросы. Полный информационный сервис, как он по­нимается в стандарте, состоит из инициатизации сессии, передачи данных и завершения сессии. Параметры сессии и ее окружение источник и приемник определяют в процессе инициализации.

Согласно Z39.50 существует семь основных видов информа­ционного обмена в рамках распределенной ИПС:

  • инициализация сессии;

  • поиск информации по запросу;

  • представление результатов поиска;

  • удаление результатов поиска;

  • контроль доступа к информационному ресурсу;

  • контроль прав доступа к информационному ресурсу;

  • завершение сессии.

Завершение сессии — это закрытие Z-соединения и после­дующее закрытие ТСР-соединения.

В течение сеанса происходит обмен PDU, инициатором которых, чаще всего, выступает клиент. Основные PDU сле­дующие:

  • Search;

  • Present;

  • DeleteResuitSet;

  • Scan;

  • Sort;

  • Segment;

  • ExtendedServices.

27. Примерный состав и структура электронной библиотеки.

28. Человеко-машинные интерфейсы. Типы интерфейсов и их характеристика

29. Метафора управления графических интерфейсов. Типы диалога

30. Назначение и примеры кросстехнологий

К данному классу отнесены технологии пользовате­ля, ориентированные на следующие (или аналогичные) виды преобразования информации:

  • распознавания символов:

  • звук-текст:

  • текст—звук;

  • автоматический перевод

ABBYY FineReader

31. Основные принципы распознавания символов (OCR)

Когда страница текста отсканирована в ПК, она представле­на в виде состоящего из пикселей растрового изображе­ния. Такой формат не воспринимается компьютером как текст, а как изображение текста и текстовые редакторы не способны к обработке подобных изображений. Чтобы превра­тить группы пикселей в доступные для редактирования символы и слова, изображение должно пройти сложный процесс, извест­ный как оптическое распознавание символов (optical character recognition — OCR).

В то время как переход от символьной информации к графи­ческой (растровой) достаточно элементарен и без труда осущест­вляется, например при выводе текста на экран или печать, об­ратный переход (от печатного текста к текстовому файлу в ма­шинном коде) весьма затруднителен. Именно в связи с этим для ввода информации в ЭВМ исстари использовались перфо­ленты, перфокарты и др. промежуточные носители, а не исходные «бумажные» документы, что было бы гораздо удобнее. ■ В защиту» перфокарт скажем здесь, что наиболее «продвину­тые» устройства перфорации делали надпечатку на карте для проверки ее содержания.

Первые шаги в области оптического распознавания симво­лов были предприняты в конце 50-х гг. XX в. Принципы распо­знавания, заложенные в то время, используются в большинстве систем OCR: сравнить изображение с имеющимися эталонами и выбрать наиболее подходящий.

В середине 70-х гг. была предложена технология для ввода информации в ЭВМ. заключающаяся в следующем:

  • исходный документ печатается на бланке с помощью пи­шущей машинки, оборудованной стилизованным шрифтом (каждый символ комбинируется из ограниченного числа вертикальных, горизонтальных, наклонных черточек, по­добно тому, как это делаем мы и сейчас, нанося на почто­вый конверт цифры индекса):

  • полученный «машинный документ» считывается оптоэлек­трическим устройством (собственно OCR), которое коди­рует каждый символ и определяет его позицию на листе;

  • информация переносится в память ЭВМ, образуя элек­тронный образ документа или документ во внутреннем представлении.

Очевидно, что по сравнению с перфолентами (перфокарта­ми) OCR-документ лучше хотя бы тем. что он без особого труда может быть прочитан и проверен человеком и, вообще, представ­ляет собой «твердую копию» соответствующего введенного доку­мента. Было разработано несколько модификаций подобных шрифтов, разной степени «удобочитаемости» (OCR A, OCR В и пр., рис. 4.1).

OCR А 123 OCR В 123

а б

Рис. 4.1. Стилизованные шрифты: а - OCR А; 6— OCR В

Очевидно также, что считывающее устройство представляет собой сканер, хотя и специализированный(считывание стилизо­ванных символов), но интеллектуальный (распознавание их).

OCR-технология в данном виде просуществовала недолго и в настоящее время приобрела следующий вид:

-считывание исходного документа осуществляется универ­сальным сканером, осуществляющим создание растрового образа и запись его в оперативную память и/или в файл;

- функции распознавания полностью возлагаются на про­граммные продукты, которые, естественно, получили на­звание OCR-software.

Исследования в этом направлении начались в конце 1950-х гг., и с тех пор технологии непрерывно совершенствова­лись. В 1970-х гг. и в начале 1980-х гг. программное обеспечение оптического распознавания символов все еще обладало очень ограниченными возможностями и могло работать только с неко­торыми типами и размерами шрифтов. В настоящее время про­граммное обеспечение оптического распознавания символов на­много более интеллектуально и может распознать фактически все шрифты, даже при невысоком качестве изображения доку­мента.