Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
24
Добавлен:
21.03.2016
Размер:
384.88 Кб
Скачать

31

Индексирование документов является разовым процессом в локальных системах или постоянным в глобальных, но в любом случае оно не производится одновременно с поиском (для поиска и индексирования не используются одновременно одни и те же аппаратные ресурсы). Вследствие этого скорость поиска информации в ИПС определяется скоростью доступа к хранилищу поисковых образов (второй влияющий фактор – поисковый алгоритм), которая зависит от структуры и объема базы данных документов [, , ].

Прямой просмотр файлов поисковых образов документов занимает много времени, что является неприемлемым для пользователя, особенно в сети Интернет. Поэтому база данных документов организуется в виде ряда связанных таблиц.

Помимо информации о соответствии терминов и документов (идентификаторы терминов и документов, веса терминов и т. д.), в базах данных ИПС хранятся также различные дополнительные сведения. Некоторые из них непосредственно используются при поиске, например, даты последних изменений документов или информация о содержащихся в документах ссылках на другие документы (это особенно актуально для ИПС сети Интернет). Часть данных необходима для облегчения работы пользователя с результатами поиска (заголовки и аннотации документов и др.). Обычно информация о терминах и документах, которая находится в базах данных ИПС, может быть использована одновременно для нескольких алгоритмов поиска.

Рассмотрим общую структуру базы данных поисковых образов интернет-доку- ментов (гипертекстовых страниц) [, , , ].

База данных (рис. Рис. 10) состоит из таблицы адресов страниц, таблицы ключевых слов, таблицы заголовков страниц, таблицы с датами изменения страниц, таблицы гиперссылок, а также двух таблиц-списков – прямого и инвертированного.

 

 

 

 

32

 

 

 

 

 

 

 

 

 

 

 

 

 

Дата модификации

 

 

Заголовки

 

 

Ссылки страниц

 

страниц

 

(названия) страниц

 

 

 

 

 

 

 

pageID

 

pageID

 

pageID

дата индексации

 

заголовок

 

входящие ссылки

дата модификации

 

 

 

 

 

 

(pageID)

 

 

 

 

 

 

 

исходящие

 

 

 

 

 

 

 

 

ссылки (pageID)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Адреса страниц (URL)

pageID

URL

 

 

Прямой

 

Инвертированный

 

 

 

список

 

 

список

 

 

pageID

 

kwdID

 

 

kwdID

 

pageID

 

 

вес термина

 

позиция термина

 

 

 

в документе

 

 

в документе

 

 

 

 

 

 

 

 

Ключевые слова

kwdID

термин

Рис. 10. Структура базы данных поисковых образов

Таблица адресов страниц содержит уникальные идентификаторы (pageID) и адреса страниц (URL1).

Таблица ключевых слов содержит термины и их уникальные идентификаторы (kwdID).

Таблица с заголовками страниц ставит в соответствие каждому идентификатору страниц pageID название этой страницы.

Таблица с датами изменения страниц фиксирует для каждой страницы pageID дату последнего посещения этой страницы индексационным роботом (т. е. дату индексации этой страницы). Она используется при обновлении базы данных: если содержание страницы изменилось со времени последней индексации, ее следует проиндексировать заново. В этой таблице также хранятся даты модификации стра-

1 URL – сокр. от англ. Uniform Resource Locator – унифицированный указатель информационного ресурса (стандартизованная строка символов, указывающая местонахождение документа в сети Интернет).

33

ниц. Эта информация используется при ранжировании результатов поиска не по релевантности, а по дате.

Таблица гиперссылок определяет для каждой страницы список входящих и исходящих гиперссылок. Входящими называются такие ссылки, которые находятся на других страницах, а ссылаются на данную, а исходящими – ссылки, которые находятся на данной странице, а ссылаются на другие.

Таблицы, содержащие информацию о ссылках, необходимы по двум причинам. Во-первых, они используются индексационными роботами при сканировании сети Интернет. Во-вторых, было установлено, что документы, объединенные гиперссылками, содержат также и много одинаковых индексационных терминов. Результаты поиска можно улучшить, добавляя к документам, описываемым идентификаторами терминов, информацию об их гиперссылках [].

Таблица, называемая прямым списком, содержит список ключевых слов (kwdID) для каждой страницы (pageID). Эта таблица используется для вычисления частоты

встречаемости термина в документе (TF)i и определения весов терминов, а также

в алгоритмах обратной связи по релевантности и в функциях поддержки и актуализации массива индексированных документов.

Таблица – инвертированный список содержит для каждого ключевого слова (kwdID) список страниц (pageID), в которых это слово встречается. Кроме того, здесь указывается позиция (порядковый номер) данного термина в странице. Эта информация используется в тех запросах, где важным является взаимное расположение слов (контекстный поиск). Например, когда идет поиск по запросу «операционная система», важно получить не просто все документы, в тексте которых присутствуют термины «операционная» и «система», а только те, в которых эти два слова расположены друг за другом, т. е. объединены во фразу.

Отметим, что схема, приведенная на рис. Рис. 10, не является наиболее эффективной с точки зрения производительности ИПС. Она описывает лишь общий принцип хранения информации, который призван обеспечить максимальную полноту

иточность поиска [, 36, ].

Входе выполнения поискового алгоритма термины из запроса тем или иным способом сравниваются с терминами из инвертированного списка. Далее формируется результирующий список страниц (заголовок, адрес, краткая аннотация, дата индексации и т. д.), который поисковая система возвращает пользователю.

34

Для ускорения доступа к базе данных поисковых образов веб-документов применяются механизмы индексации1 и хеширования2. Часто для хранения и обработки описаний документов используются системы управления базами данных (СУБД). В таких случаях поиск по базе данных осуществляется с использованием встроенных средств СУБД [].

Список рекомендуемой литературы

1.Добрынин В. Ю. Теория информационно-логических систем. Информационный поиск: Метод. указания к курсу информационного поиска. – СПб. : Изд-во СПбГУ,

2002.

2.Дубинский А. Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. –

2001. – № 4.

3.Капустин В. А. Основы поиска информации в Интернете. Методическое посо-

бие. – СПб. : Институт "Открытое общество", С.-Петерб. отд-ние, 1998. 4.Когаловский М. Р. Перспективные технологии информационных систем. М. :

ДМК Пресс : Компания АйТи, 2003.

5.Кромер В. В. Об одной поправке к каноническому закону // Телеконференция

"Информационные технологии в гуманитарных науках". – Казань, 1998.

6.Кураленок И. Е. Оценка систем текстового поиска / И. Е. Кураленок, И. С. Не-

крестьянов // Программирование. – 2002. – № 4.

7.Некрестьянов И. С. Системы текстового поиска для Веб / И. С. Некрестьянов,

Н. Пантелеева // Программирование. – 2002. – № 4.

8.Попов А. Поиск в Интернете – внутри и снаружи // Internet. – 1996. – № 2. 9.Сегалович И. В. Как работают поисковые системы // Мир Internet. – 2002. –

№ 10.

10.Солтон Дж. Динамические библиотечно-информационные системы. – М. :

Мир, 1979.

11.Храмцов П. Информационно-поисковые системы Internet // Открытые систе-

мы. – 1996. – № 3(17).

12.Храмцов П. Моделирование и анализ работы информационно-поисковых си-

стем Internet // Открытые системы. – 1996. – № 6(20).

13.Чугреев В. Л. Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации: дис. … канд. техн. наук: 05.13.01 / С.-Петерб. гос. электротехн. ун-т им. В.И. Ульянова

(Ленина) “ЛЭТИ”. – СПб., 2003.

14.Чурсин Н. Н. Популярная информатика. – Киев. : Техника, 1982.

1 Индексация – средство, ускоряющее поиск и сортировку в таблице за счет использования ключевых значений, что позволяет обеспечить уникальность строк таблицы.

2 Хеширование – алгоритм, в ходе выполнения которого для сохраняемых объектов генерируется специальный указатель (хеш-код), используемый впоследствии для индексации массива указателей.

35

15."Электронные библиотеки: перспективные методы и технологии, электронные коллекции", всерос. науч.-практ. конф. (5 ; 2003 ; СПб.) Сборник трудов пятой всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", 29 – 31 октября 2003 г. / науч. ред. Л. А.

Калиниченко. – СПб, 2003.

16.Baeza-Yates R. Modern Information Retrieval. / R. Baeza-Yates, B. Ribeiro-Neto // ACM Press Series – New York : Addison Wesley, 1999. – http://citeseer.ist.psu.edu/baeza-

yates99modern.html.

17.Brin S. The Anatomy of a Large-Scale Hypertextual Web Search Engine / S. Brin.,

L. Page // Computer Networks and ISDN Systems. – 1998. – № 30

18.Carmel D. Probabilistic Models of Information Retrieval // D. Carmel, A. Soffer/ –

Israel : Haifa University, 2003.

19.Draper S. Mizzaro's Framework for Relevance. – 1998.– http://www.psu.gla.ac.uk/

~steve/stefano.htm.

20.Dumais S. T. Using Latent Semantic Indexing (LSI) for Information Retrieval, Information Filtering, and Other Things. // Talk at Cognitive Technology Workshop. – April 4-5,

1997.

21.Gabrielli S. Negotiating a Multidimensional Framework for Relevance Space / S.

Gabrielli., S. Mizzaro // Proc. of the MIRA'99. – 1999.

22.Greisdorf H. Relevance: An Interdisciplinary and Information Science Perspective.

Informing Science, N3 (2), 2000.

23.Hofmann T. Probabilistic Latent Semantic Indexing. In 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Berkeley,

CA, USA, 1999.

24.Indexing by Latent Semantic Analysis / S. Deerwester [and others] // Journal of the

American Society for Information Science. – 1990. – № 41(6),

25.Landauer T. K. Fully Automatic Cross-Language Document Retrieval Using Latent Semantic Indexing. / T. K. Landauer, M. L. Littman. // Proceedings of the Sixth Annual Conference of the UW Centre for the New Oxford English Dictionary and Text Research. –

Waterloo (Ontario), 1990.

26.Lin J. J. Indexing and Retrieving Natural Language Using Ternary Expressions //

Master's Thesis of Massachusetts Institute of Technology. – 2001.

27.Mizzaro S. How Many Relevances in Information Retrieval? // Interacting With

Computers. – 1998. – № 10(3).

28.Mizzaro S. Relevance: The Whole History // Journal of the American Society of In-

formation Science/ – 1997. – № 48(9).

29.Pinkerton B. Finding What People Want: Experiences with the WebCrawle. //

Proc. of the 2nd World Wide Web conference. – 1994.

30.Robins D. Interactive Information Retrieval: Context and Basic Notions // Informing

Science. – 2000. – № 3(2).

31.Saracevic T. Relevance Reconsidered ‘96 // Proc. of the Second Conference on Conceptions of Library and Information Science (CoLIS 2). – Copenhagen, 1996.

36

32.Searching the Web. / A. Arasu, [and others] // ACM Trans. on Internet Technology/

– 2001. – № 1(1).

33.Singhal A. A Case Study in Web Search Using TREC Algorithms / A. Singhal, M. Kaszkiel // Proc. of the 10th International World Wide Web Conference. – Hong Kong,

2001.

34.Sparck J. K. A Probabilistic Model of Information Retrieval: Development and Comparative Experiments / J. K Sparck, S. Walker, S. E. Robertson // Information Process-

ing and Management. – 2000. – № 36(6).

35.Sparck J. K. Reflections on TREC. // Information Processing & Management. –

1995. – № 31.

36.Vakkari P. Cognition and Changes of Search Terms and Tactics During Task Per-

formance: A Longitudinal Study // Proc. of the RIAO 2000 Conference. – Paris, 2000. 37.Wallis P. Relevance Judgements for Assessing Recall / P. Wallis, J. A. Thom // In-

formation Processing & Management. – 1996. – № 32(11).

38.Wiemer-Hastings P. How Latent is Latent Semantic Analysis? / P. Wiemer-Hast- ings, K. Wiemer-Hastings, A. Graesser // Proceedings of the Sixteenth International Joint

Congress on Artificial Intelligence/ – San Francisco, 1999.

39.Yuwono B. A World Wide Web Resource Discovery Systems / B. Yuwono, S. L. Y.

Lam, J. H. Ying, D. L. Lee. // World Wide Web Journal. – 1996. – № 1(1).

40.Yuwono B., Lee D. Search and Ranking Algorithms for Locating Resources on the World Wide Web / B. Yuwono, D. Lee // Proc. of the 12th International Conference on the Data Engineering. – New Orleans (Louisiana), 1996.

Соседние файлы в папке Методические указания к практике