- •1.2. Соотношение понятий «информация», «данные», «знания» 20
- •Информация
- •Приведите классификацию и охарактеризуйте основные компоненты ис.
- •Определите основные функции и назначение субд
- •Перечислите основные требования, предъявляемые к базам данных.
- •Прямая и инвертированная форма представления информации
- •16. Технологии информирования. Основные схемы видов информирования: трансинформирование,
- •17. Обобщенная схема абстрактного технологического процесса. Классы ит.
- •18. Технологии распределенной обработки данных. Типовые схемы организации хранения данных и доступа по технологии «клиент-сервер».
- •Синтаксис xml
- •Пример описания книги:
- •Пример описания главы:
- •25. Поисковые системы в Internet. Назначение, область применения.
- •26. Назначение и архитектура протокола z39.50. Понятие абстрактной базы данных.
- •32. Основные принципы систем распознавания речи
- •Классификация систем распознавания речи.
- •33. Основные принципы систем генерации речи
- •34. Основные принципы систем автоматизированного перевода
26. Назначение и архитектура протокола z39.50. Понятие абстрактной базы данных.
Данный протокол ориентирован на информационный поиск в удаленных базах данных. Это — протокол прикладного уровня в рамках семиуровневой эталонной модели взаимодействия открытых систем, разработанной Международной Организацией Стандартов (ISO), и поэтому может быть реализован в различных типах сетей (например, в сетях TCP/IP, IPX/SPX, OSI) независимо от реализации транспортного уровня. Его назначение — предоставить компьютеру, работающему в режиме «клиент», возможности поиска и извлечения информации из другого компьютера, работающего как информационный сервер.
Особенностями протокола Z39.50 является возможность сохранения состояний системы и присвоение каждому состоянию соответствующего идентификатора. Эта особенность протокола позволяет производить «навигацию во времени» т. е. в любой момент можно вернуться в определенную точку поиска, произведенного ранее. Наличие такой «памяти» позволяет использовать результаты, полученные ранее, в составлении дальнейших запросов.
Первоначально многие Z39.50-приложения создавались исключительно для использования с библиографическими данными (например, электронные Online-версии библиотечных каталогов). Однако в настоящее время протокол развит настолько, что позволяет обрабатывать различные данные — финансовую, химическую, техническую информацию, тексты и изображения.
Технология сетевого доступа к базам данных по протоколу Z39.50 существенно отличается от других технологий. Различие обусловлено самой сутью протокола: его ориентацией на работу с базами данных, абстрагированных от конкретных систем.
Состав протокола Z39.50. В основе Z39.50 лежит модель абстрактной базы данных. Каждый элемент этой модели имеет описание с однозначным толкованием и стандартизуется с присвоением уникального идентификатора — OID.
Термин база данных в спецификации Z39.50 означает набор файлов, каждый из которых имеет свое уникальное имя. Единицей хранения информации, которая может быть найдена при обращении к базе данных, является запись файла. Все записи одного файла должны иметь одинаковую структуру (т. е. состоять из одного и того же набора элементов и точек доступа). Точка доступа — это уникальный или неуникальный ключ, который может быть указан самостоятельно или в совокупности с другими ключами в поисковом критерии. Ключ может быть элементом данных, состоять из нескольких элементов или быть частью
элемента. __
Работа с каждой конкретной СУБД согласно Z39.50 должна быть организована только через эту абстрактную модель путем обмена пакетами данных (PDU), содержащими последовательности объектов, идентифицируемых по меткам. В стандарте описаны следующие классы объектов:
контекст приложения (context);
протокольные блоки данных — protocol data unit (pdu);
атрибуты (attributeset);
диагностика (diagnostic);
структура записей (recordsyntax);
синтаксис преобразований (transfersyntax);
отчет по ресурсам (resourcereport);
контроль доступа (accesscontrol);
расширенный сервис (extendedservice);
пользовательская информация (userinfoformat);
элементы (elementspec);
варианты (variantset);
схема данных (schema);
схема меток (tagset).
Внутри класса объекты идентифицируются номерами, добавляемыми к номеру класса. Например, в классе recordSyntax {1.2.840.10003.5} объекты имеют OID:
Unimarc {1.2.840.10003.5.1},
USmarc {1.2.840.10003.5.10},
sutrs {1.2.840.10003.5.101} и т. п.
Модель службы Z39.50 предусматривает обмен сообщениями типа «запрос—ответ» между соответствующими приложениями _ клиентом и сервером. Формат таких сообщений и определяется протоколом Z39.50. После установления ТСР-соединения (или любого другого, зависящего от способа передачи данных) устанавливается Z39.50-coefliiHeHvie, посредством обмена протокольными блоками данных — Protocol Data Unit (PDU).
PDU состоят из набора тегов, определяющих тип PDU (запрос или ответ на инициализацию сессии, запрос на поиск, результат поиска, запрос представления, ответ представления, запрос или ответ на закрытие сессии и т. д.), физические параметры сеанса, виды услуг, поддерживаемых клиентом и сервером, параметры поиска, содержание запроса, сообщения о проведенном поиске и т. д.
Получив от клиента PDU на инициализацию сессии, сервер формирует ответ — сообщения о параметрах сеанса, видах услуг, поддерживаемых клиентом и сервером, после получения которого клиентом Z39.50-соединение считается установленным. Далее клиент может либо продолжить работу с такими параметрами, либо закрыть соединение и попытаться затем установить новое — быть может, с другими параметрами. Передавать запрос на поиск информации пользователь может только после установки соединения.
Таким образом, протокол Z39.50 описывает интерактивную сессию между источником запросов и приемником, обслуживающим эти запросы. Полный информационный сервис, как он понимается в стандарте, состоит из инициатизации сессии, передачи данных и завершения сессии. Параметры сессии и ее окружение источник и приемник определяют в процессе инициализации.
Согласно Z39.50 существует семь основных видов информационного обмена в рамках распределенной ИПС:
инициализация сессии;
поиск информации по запросу;
представление результатов поиска;
удаление результатов поиска;
контроль доступа к информационному ресурсу;
контроль прав доступа к информационному ресурсу;
завершение сессии.
Завершение сессии — это закрытие Z-соединения и последующее закрытие ТСР-соединения.
В течение сеанса происходит обмен PDU, инициатором которых, чаще всего, выступает клиент. Основные PDU следующие:
Search;
Present;
DeleteResuitSet;
Scan;
Sort;
Segment;
ExtendedServices.
27. Примерный состав и структура электронной библиотеки.
28. Человеко-машинные интерфейсы. Типы интерфейсов и их характеристика
29. Метафора управления графических интерфейсов. Типы диалога
30. Назначение и примеры кросстехнологий
К данному классу отнесены технологии пользователя, ориентированные на следующие (или аналогичные) виды преобразования информации:
распознавания символов:
звук-текст:
текст—звук;
автоматический перевод
ABBYY FineReader
31. Основные принципы распознавания символов (OCR)
Когда страница текста отсканирована в ПК, она представлена в виде состоящего из пикселей растрового изображения. Такой формат не воспринимается компьютером как текст, а как изображение текста и текстовые редакторы не способны к обработке подобных изображений. Чтобы превратить группы пикселей в доступные для редактирования символы и слова, изображение должно пройти сложный процесс, известный как оптическое распознавание символов (optical character recognition — OCR).
В то время как переход от символьной информации к графической (растровой) достаточно элементарен и без труда осуществляется, например при выводе текста на экран или печать, обратный переход (от печатного текста к текстовому файлу в машинном коде) весьма затруднителен. Именно в связи с этим для ввода информации в ЭВМ исстари использовались перфоленты, перфокарты и др. промежуточные носители, а не исходные «бумажные» документы, что было бы гораздо удобнее. ■ В защиту» перфокарт скажем здесь, что наиболее «продвинутые» устройства перфорации делали надпечатку на карте для проверки ее содержания.
Первые шаги в области оптического распознавания символов были предприняты в конце 50-х гг. XX в. Принципы распознавания, заложенные в то время, используются в большинстве систем OCR: сравнить изображение с имеющимися эталонами и выбрать наиболее подходящий.
В середине 70-х гг. была предложена технология для ввода информации в ЭВМ. заключающаяся в следующем:
исходный документ печатается на бланке с помощью пишущей машинки, оборудованной стилизованным шрифтом (каждый символ комбинируется из ограниченного числа вертикальных, горизонтальных, наклонных черточек, подобно тому, как это делаем мы и сейчас, нанося на почтовый конверт цифры индекса):
полученный «машинный документ» считывается оптоэлектрическим устройством (собственно OCR), которое кодирует каждый символ и определяет его позицию на листе;
информация переносится в память ЭВМ, образуя электронный образ документа или документ во внутреннем представлении.
Очевидно, что по сравнению с перфолентами (перфокартами) OCR-документ лучше хотя бы тем. что он без особого труда может быть прочитан и проверен человеком и, вообще, представляет собой «твердую копию» соответствующего введенного документа. Было разработано несколько модификаций подобных шрифтов, разной степени «удобочитаемости» (OCR A, OCR В и пр., рис. 4.1).
OCR А 123 OCR В 123
а б
Рис. 4.1. Стилизованные шрифты: а - OCR А; 6— OCR В
Очевидно также, что считывающее устройство представляет собой сканер, хотя и специализированный(считывание стилизованных символов), но интеллектуальный (распознавание их).
OCR-технология в данном виде просуществовала недолго и в настоящее время приобрела следующий вид:
-считывание исходного документа осуществляется универсальным сканером, осуществляющим создание растрового образа и запись его в оперативную память и/или в файл;
- функции распознавания полностью возлагаются на программные продукты, которые, естественно, получили название OCR-software.
Исследования в этом направлении начались в конце 1950-х гг., и с тех пор технологии непрерывно совершенствовались. В 1970-х гг. и в начале 1980-х гг. программное обеспечение оптического распознавания символов все еще обладало очень ограниченными возможностями и могло работать только с некоторыми типами и размерами шрифтов. В настоящее время программное обеспечение оптического распознавания символов намного более интеллектуально и может распознать фактически все шрифты, даже при невысоком качестве изображения документа.