Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Максимов Информационные ресурсы и поисковые системы 2008

.pdf
Скачиваний:
636
Добавлен:
16.08.2013
Размер:
8.18 Mб
Скачать

вается Американским архивным обществом и Библиотекой Конгресса США.

TEI предложения по кодированию текстов http://wwwtei.uic.edu/orgs/tei/): разработана в Центре электронных текстов Вирджинии в 1989 г. как инструмент при процессе оцифровке, который идентифицирует электронный ресурс и его печатный источник посредством метаданных, размещаемых внутри самого электронного ресурса.

IAFA/WHOIS шаблонно ориентированные метаданные для описания сетевых ресурсов, первоначально использовавшиеся для описания списков электронной почтовой рассылки, других ftpархивов, а позднее распространенные на другие ресурсы. Наиболее широкое применение наблюдалось в рамках ранних проектов британской программы по электронным библиотекам eLib (ROADS и т. д.), но даже сейчас эта схема метаданных считается одной из самых употребительных.

ONIX – основное назначение выполнять функцию метаданных для представления информации об определенной группе товаров, а именно, полиграфической продукции, электронных изданий, аудио и видеопродукции с точки зрения книготорговли.

ONIX представляет собой реализацию схемы DTD (Definition Type Documents) данной группы товаров. Товар описан группой элементов, начинающейся с тега XML <Product> и заканчивающейся </Product>. Вся группа элементов, заключенная между двумя тегами, содержит описание товара.

Семантическое наполнение формата ONIX включает 25 групп элементов данных (полей). В некоторых случаях группы включают повторяющиеся подгруппы, которые называются «Области».

391

ПРИЛОЖЕНИЕ 51

Пример развития поиска и терминологической системы запроса2

Тема запроса: «Исследования в области использования тория в атомной энергетике»

Построим граф понятий предметной области, выделяя для направления «Физика ядерных реакторов» три аспекта:

-воспроизводство урана-233;

-замкнутый ториевый цикл;

-тяжеловодные реакторы.

Проведем поиск по полю «Ключевые слова» в реферативнобиблиографической базе САРИ ЦНИИАтомИнформ (см. гл. 10) последовательно для всех аспектов, используя на первом шаге в поисковом запросе слова, составляющее обозначение основного понятия.

1.Аспект «Воспроизводство урана-233»

1.1. Проведем поиск по словам основного понятия

Запрос

Всего

Из них

 

найдено

релевантных

KW:(УРАН* и ВОСПРОИЗВОДСТ*)

18

15

Полученные 15 документов, описывают различные аспекты воспроизводства топлива в ядерных реакторах.

1.2. Выделим при просмотре из текста документов характерные термины (ключевые слова). Получили следующий список:

-ЗОНЫ ВОСПРОИЗВОДСТВА

-КОЭФФИЦИЕНТ ВОСПРОИЗВОДСТВА

-ОТРАБОТАННОЕ ТОПЛИВО

-РАСШИРЕННОЕ ВОСПРОИЗВОДСТВО

-ИЗОТОПНОЕ ОТНОШЕНИЕ

1Пример подготовлен Болотиным Е.И.

2Цель примера, в следствие ограничений объема пособия, состоит только в том, чтобы проиллюстрировать эффективность использования лексики релевантных документов.

392

-ОБРАБОТКА РАДИОАКТИВНЫХ ОТХОДОВ

-ПРЕВРАЩЕНИЕ ИЗОТОПОВ

-ВЫГОРАНИЕ

-ВРЕМЯ ВЫДЕРЖКИ ТОПЛИВА

-ПРОДУКТЫ ДЕЛЕНИЯ

-ЗАВОДЫ ПО ПЕРЕРАБ. ОБЛУЧЕННОГО ТОПЛИВА

-ОТРАБОТАННЫЕ ТВЭЛЫ

-ПОВТОРНОЕ ИСПОЛЬЗОВАНИЕ УРАНА

1.3. Значимые для нашего аспекта слова (выделено жирным) включим в выражение запроса и проведем поиск.

Запрос

Всего

Из них

 

найдено

релевантных

KW:(УРАН* и (ВОСПРОИЗВОДСТ*

53

19

или (ПРЕВРАЩЕН* и ИЗОТОП*) или

 

 

(ПОВТОРН* и ИСПОЛЬЗОВАН*)))

 

 

Среди 19-ти релевантных документов, 15 описывают методы повторного использования уранового топлива.

1.4.Выделим при просмотре из текста документов характерные термины (ключевые слова). Получили следующий список:

- ЗАМКНУТЫЙ ТОПЛИВНЫЙ ЦИКЛ

1.5.Значимые для нашего аспекта слова (выделено жирным)

включим в выражение запроса и проведем поиск.

Запрос

Всего

Из них

 

найдено

релевантных

KW:(УРАН* и (ВОСПРОИЗВОДСТ*

71

30

или (ПРЕВРАЩЕН* и ИЗОТОП*) или

 

 

(ПОВТОРН* и ИСПОЛЬЗОВАН*) или

 

 

(ЗАМКНУТ* и ТОПЛИВН* и

 

 

ЦИКЛ*)))

 

 

Среди 30-ти релевантных документов, 11 описывают разработки замкнутых топливных циклов для различных реакторов.

1.6. Выделим при просмотре из текста документов характерные термины (ключевые слова). Получили следующий список:

-ПЕРЕРАБОТКА ОБЛУЧЕННОГО ТОПЛИВА

-ОБРАБОТКА РАДИОАКТИВНЫХ ОТХОДОВ

393

1.7. Значимые для нашего аспекта слова (выделено жирным) включим в выражение запроса и проведем поиск.

Запрос

Всего

Из них

 

найдено

релевантных

KW:(УРАН* и (ВОСПРОИЗВОДСТ*

112

47

или (ПРЕВРАЩЕН* и ИЗОТОП*) или

 

 

(ПОВТОРН* и ИСПОЛЬЗОВАН*) или

 

 

(ЗАМКНУТ* и ТОПЛИВН* и ЦИКЛ*)

 

 

или (ПЕРЕРАБОТК* и ОБЛУЧЕНН*

 

 

и ТОПЛИВ*)))

 

 

Среди 47-ти релевантных документов, 17 описывают методы переработки облученного топлива, а также информацию о перерабатывающих заводах.

1.8.При просмотре документов новых понятий не обнаружено

1.9.Проведем эвристический поиск (реформулировка запроса по обратной связи), по множеству истинно релевантных документов

Запрос

Всего

Из них

 

найдено

релевантных

ЭВРИСТИЧЕСКИЙ ПОИСК

25

24

Среди выданных НОВЫХ ДОКУМЕНТОВ НЕ ОБНАРУЖЕНО.

Это подтверждает полноту поиска и построенного в процессе поиска терминологического представления (рис. 1). Таким образом, поиск по этому полю для ланного аспекта можно завершить1.

2. Повторим аналогичные действия для аспекта

Коэффициент воспроизводства

(Описание процесса опускаем)

3. Повторим аналогичные действия для аспекта

Замкнутый ториевый цикл

(Описание процесса опускаем)

4. Построим дерево понятий предметной области по значимой лексике, обнаруженной в процессе поиска.

1 При практическом поиске процесс было бы целесообразно повторить для других информативных полей, таких, как «Заглавие» и «Реферат».

394

Рис. П.5.1. Итоговое дерево понятий по направлению «Исследования в области использованию тория в атомной энергетике»

395

Оглавление

 

Введение .............................................................................................

3

РАЗДЕЛ 1. ИНФОРМАЦИОННЫЕ РЕСУРСЫ И

 

АВТОМАТИЗИРОВАННЫЙ ДОКУМЕНТАЛЬНЫЙ

ПОИСК...........................................................................

13

Глава 1. Концептуальные основы информационного поиска......

13

1.1. О понятиях «информация» и

 

«информационные ресурсы» ...............................................

13

1.2. Введение в информационный поиск...................................

19

1.3. Информационные коммуникации и свойства информаци .26

1.4. Обобщенная схема информационного обслуживания........

35

1.5. Типология поисковых задач и форма выражения запроса.39

1.6. Обобщенная схема поиска...................................................

42

Глава 2. Технологические и лингвистические основы

 

информационного поиска..............................................

46

2.1. Организация данных и критерии поиска ............................

46

2.2. Функциональная обработка запросов и документов

 

в АИПС................................................................................

57

2.3. Лингвистическое обеспечение и обработка информации

 

в АИПС................................................................................

60

2.4. Поисковый интерфейс.........................................................

75

РАЗДЕЛ 2. ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ИС И

 

АВТОМАТИЧЕСКАЯ ОБРАБОТКА

 

ДОКУМЕНТАЛЬНОЙ ИНФОРМАЦИИ......................

82

Глава 3. Классификации в задачах информационного поиска.....

82

3.1. Библиотечно-библиографические классификации.............

85

3.2. Международная патентная классификация......................

106

3.3. Отраслевые классификационные системы........................

115

Глава 4. Терминологические структуры.....................................

127

4.1. Линейные терминологические структуры ........................

128

4.2. Иерархические терминологические структуры................

131

4.3. Терминологические структуры с сетевой организацией..

135

Глава 5. Методы автоматической обработки и лексического

 

анализа документальной информации........................

160

5.1. Методы выделения информативных терминов ................

160

396

5.2. Статистические меры близости терминов ........................

164

5.3. Методы классификации и кластеризации документов.....

169

5.4. Автоматическое реферирование и аннотирование...........

175

РАЗДЕЛ 3. РАСПРЕДЕЛЕННАЯ ОБРАБОТКА

 

ИНФОРМАЦИИ .........................................................

181

Глава 6. Распределенные файловые системы.............................

181

6.1. Файловый сервис...............................................................

184

6.2. Сервис каталогов ...............................................................

186

6.3. Семантика разделения файлов ..........................................

187

Глава 7. Распределенные вычисления ........................................

191

7.1. Архитектура распределенных вычислений.......................

192

7.2. Виды параллелизма в распределенных вычислениях.......

193

7.3. Примеры проектов распределенных вычислений ............

197

7.4. Андеграунд распределенных вычислений........................

205

Глава 8. Архитектура распределенных ИР.................................

207

8.1. Типология и структура распределенных ИР.....................

207

8.2. Распределенная обработка в

 

поисковых машинах Internet.............................................

212

8.3. Организация доступа к распределенным

 

документальным ИР..........................................................

213

8.4. Обобщенная схема доступа к ресурсам ЭБ.......................

217

8.5. Доступ к полным текстам документов..............................

219

8.6. Интероперабельность в распределенных ИР....................

222

РАЗДЕЛ 4. ДОКУМЕНТАЛЬНЫЕ РЕСУРСЫ НАУЧНОЙ

 

ИНФОРМАЦИИ ..........................................................

227

Глава 9. Электронные каталоги и библиотеки............................

228

9.1. Электронные ресурсы Библиотеки по естественным

 

наукам РАН ......................................................................

228

9.2. Электронные ресурсы Государственной публичной

 

научно-технической библиотеки России (ГПНТБ)..........

243

9.3. Электронные ресурсы Библиотеки Конгресса США........

258

Глава 10. Реферативно-библиографические

 

документальные БД ....................................................

266

10.1. Электронные каталоги и базы данных ИНИОН РАН.....

266

10.2. Базы реферативно-библиографической информации

 

ВИНИТИ РАН.................................................................

288

397

10.3. Базы информационных карт по диссертациям и НИР

 

ВНТИЦентра...................................................................

293

10.4. Базы патентной информации ФИПС...............................

297

10.5. Базы данных Международного агентства по атомной

 

энергии............................................................................

306

Глава 11. Электронные ресурсы издательств .............................

311

11.1. Сервис Science Direct.......................................................

311

11.2. Научнаяэлектроннаябиблиотека eLibrary..........................

317

Глава 12. Специализированные БД и ИР....................................

332

12.1. Портал NUCLEUS............................................................

332

12.2. Сайты российских предприятий и организаций ядерной

отрасли ............................................................................

334

12.3. Специализированные базы данных ................................

339

Заключение: еще раз о человеко-машинном поиске информации в

распределенных ИР........................................................................

346

Список литературы.........................................................................

352

Глоссарий........................................................................................

355

Список сокращений........................................................................

366

ПРИЛОЖЕНИЕ 1. Фрагмент Методики индексирования

 

документов ......................................................

367

ПРИЛОЖЕНИЕ 2. Фрагмент УДК.................................................

377

ПРИЛОЖЕНИЕ 3. Фрагмент Рубрикатора ГРНТИ.......................

383

ПРИЛОЖЕНИЕ 4. Основные системы метаданных......................

389

ПРИЛОЖЕНИЕ 5. Пример развития поиска и терминологической

системы............................................................

392

398

Максимов Николай Вениаминович Голицына Ольга Леонидовна Тихомиров Георгий Валентинович Храмцов Павел Брониславович

Информационные ресурсы и поисковые системы

Учебное пособие

Редактор Т.В. Волвенкова

Подписано в печать 20.11.08. Формат 60×841/16

Объем 25,0 п.л. 25,0 уч.-изд. л. Изд. № 1/42.

Заказ Тираж 150 экз.

Московский инженерно-физический институт (государственный университет) 115409, Каширское шоссе, 31.

Типография издательства «Тровант» г. Троицк Московской обл.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]