Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Сытник (учебник) (готово).doc
Скачиваний:
119
Добавлен:
10.11.2018
Размер:
3.96 Mб
Скачать

13.5. Шформаційно-пошукові системи internet

Мережа Internet з'явилась близько двадцяти років тому в США. Нині це вже глобальна міжнародна інформаційна система, яка може бути використана як для інформаційного пошуку, так і у комерційних цілях для інформаційного обміну як корпоративна мережа. Загальну схему інформаційно-пошукової системи Internet зображено на рис. 13.2.

Рис. 13.2. Типова схема інформаційно-пошукової системи

Клієнт — це програма перегляду конкретного інформаційно­го ресурсу. Найбільш популярні сьогодні мультипротокольні програми типу Netscape Navigator. Така програма забезпечує перегляд документів WWW, Gopher, Wais, FTP-архівів, поштових спис­ків розсилки і груп новин Usenet. У свою чергу всі ці інформаційні ресурси є об'єктом пошуку інформаційно-пошукової системи.

Інтерфейс користувача — це не просто програма перегляду, у разі інформаційно-пошукової системи під цим словосполучен­ням розуміють також спосіб спілкування користувача з пошуко­вим апаратом, системою формування запитів і перегляду резуль­татів пошуку.

Пошукова машина — застосовується для трансляції запиту на інформаційно-пошукову мову (ІПМ), у формальний запит сис­теми, пошуку посилань на інформаційні ресурси мережі і видачі результатів цього пошуку користувачеві.

Бази даних індексів — це основний масив даних ІПС, вико­ристовуваних для пошуку адреси інформаційного ресурсу. Архі­тектура індексу влаштована таким чином, щоб пошук відбувався максимально швидко і при цьому можна було б визначити цін­ність кожного із знайдених інформаційних ресурсів мережі.

Запити користувача — зберігаються в його (користувача) особистій базі даних. На відлагодження кожного запиту йде до­сить багато часу, і тому надзвичайно важливо запам'ятовувати запити, на які система дає гарні відповіді.

Робот-індексувальник — застосовується для сканування Internet і підтримки бази даних індексу в актуальному стані. Ця програма є основним джерелом інформації про стан інформаційних ресур­сів мережі.

WWW sites — це весь Internet або точніше — інформаційні ресурси, перегляд яких забезпечується програмами перегляду.

Розглянемо тепер призначення і принципи побудови кожної з цих компонентів докладніше і визначимо, в чому відмінність да­ної системи від традиційної ІПС для локального типу.

13.5.1. Подання інформаційних ресурсів у internet

Інформаційними ресурсами в ІПС Internet документи шести основних типів: WWW-сторінки, Gopher-файли, документи Wais, записи архівів FTP, новини Usenet і статті поштових списків роз­силки. Усе це досить різнорідна інформація, подана у вигляді різ­них, ніяк неузгоджених один з одним форматів даних: тексти, графічна і аудіоінформація тощо.

У традиційних ІПС використовується поняття пошукового об­разу документа — ПОД. Цим терміном позначають щось, що за­мінює собою документ і що використовується при пошуку замість реального документа. Найбільш популярною моделлю ство­рення ПОД є векторна модель, в якій кожному документу припи­сується список термінів, що найбільш адекватно відображають його тематику. Документу приписується вектор розмірності, рів­ний числу термінів, якими можна скористатися при пошуку. Якщо використовується булєва векторна модель, то елемент вектора рівний 1 або 0, в залежності від наявності або відсутності терміну в ПОД. У більш складних моделях терміни зважуються — еле­мент вектора рівний не 1 або 0, а деякому числу (вазі), що відоб­ражає відповідність даного терміну документу. Саме остання мо­дель стала найбільш популярною в ІПС Internet. Лінійна модель застосовується в системах Lycos, WebCrawler, AltaVista, OpenText і AliWeb.

Перша задача, яка вирішується в ІПС, — це визначення спис­ку ключових слів, які характеризують документ чи інший інфор­маційний ресурс. Ця процедура називається індексуванням. Іноді процедуру індексування називають складанням файла інвертова­ного списку, в якому кожному терміну індексування ставиться у відповідність список документів, в яких він зустрічається. Така процедура є тільки окремим випадком, а точніше, технічним ас­пектом створення пошукового апарату ІПС.

Під час роботи у World Wide Web індексування виконують спеціальні програми, що називаються роботами-індексувальни-ками, які виконують сканування мережі. Робот переглядає мере­жу, знаходить нові ресурси, приписує їм терміни і вміщує в базу даних індексу. Головне питання полягає в тому, які терміни при­писувати документам, звідки їх брати, адже ряд ресурсів взагалі не є текстом. Сьогодні роботи звичайно використовують для ін­дексування наступні джерела для поповнення своїх віртуальних словників: гіпертекстові посилання, заголовки, анотації, списки ключових слів, повні тексти документів, а також повідомлення адміністраторів про свої Web-сторінки. Для індексування telnet, gopher, ftp, нетекстовій інформації використовуються головним чином URL, для новин Usenet і поштових списків поля Subject і Keywords. Найбільший простір для побудови ПОД дають HTML документи. Однак не треба думати, що всі терміни з перелічених елементів документів потрапляють до їх пошукових образів. Ду­же активно застосовуються списки заборонених слів (stop-words), які не можуть бути вжиті для індексування, загальних слів (прий­менники, сполучники і т. п.). Таким чином навіть те, що в OpenText, наприклад, називається повнотекстовим індексуванням, реально є вибором слів з тексту документа і порівнянням з набором різних словників, після якого термін надходить до ПОД, а потім і до індексу системи. Для того щоб не збільшувати словників і індек­сів (індекс системи Lycos вже сьогодні рівний 4 Тбайт), застосо­вується таке поняття, як вага терміна. Документ звичайно індек­сується через 40—100 найбільш вагомих термінів.