Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пособие по ИС.doc
Скачиваний:
14
Добавлен:
10.11.2019
Размер:
541.7 Кб
Скачать

8.5. Інформаційно-пошукові системи internet

Мережа Internet це - глобальна міжнародна інформаційна система, яка може бути використана як для інформаційного пошуку, так і у комерційних цілях для інформаційного обміну як корпоративна мережа. Загальну схему інформаційно-пошукової системи Internet зображено на рис. 8.2.

Клієнт — це програма перегляду конкретного інформаційного ресурсу. Найбільш популярні сьогодні мультипротокольні програми типу Internet Explorer та Netscape Navigator. Така програма забезпечує перегляд документів WWW, Gopher, FTP-архівів, поштових списків розсилки і груп новин Usenet. У свою чергу всі ці інформаційні ресурси є об'єктом пошуку інформаційно-пошукової системи.

Інтерфейс користувача — це не просто програма перегляду, у разі інформаційно-пошукової системи під цим словосполученням розуміють також спосіб спілкування користувача з пошуковим апаратом, системою формування запитів і перегляду результатів пошуку.

Пошукова машина — застосовується для трансляції запиту на інформаційно-пошукову мову (ІПМ), у формальний запит системи, пошуку посилань на інформаційні ресурси мережі і видачі результатів цього пошуку користувачеві.

Бази даних індексів — це основний масив даних ШС, використовуваних для пошуку адреси інформаційного ресурсу. Архітектура індексу влаштована таким чином, щоб пошук відбувався максимально швидко і при цьому можна було б визначити цінність кожного із знайдених інформаційних ресурсів мережі.

Запити користувача — зберігаються в його (користувача) особистій базі даних. На відлагодження кожного запиту йде досить багато часу, і тому надзвичайно важливо запам'ятовувати запити, на які система дає гарні відповіді.

Робот-індексувальник — застосовується для сканування Internet і підтримки бази даних індексу в актуальному стані. Ця програма є основним джерелом інформації про стан інформаційних ресурсів мережі.

WWW sites — це весь Internet або точніше — інформаційні ресурси, перегляд яких забезпечується програмами перегляду.

8.5.1. Подання інформаційних ресурсів у Internet

Інформаційними ресурсами в ІПС Internet документи шести основних типів: WWW-сторінки, Gopher-файли, документи Wais, записи архівів FTP, новини Usenet і статті поштових списків роз-силки. Усе це досить різнорідна інформація, подана у вигляді різних, ніяк неузгоджених один з одним форматів даних: тексти, графічна і аудіоінформація тощо.

У традиційних ІПС використовується поняття пошукового образу документа — ПОД. Цим терміном позначають щось, що замінює собою документ і що використовується при пошуку замість реального документа. Найбільш популярною моделлю створення ПОД є векторна модель, в якій кожному документу приписується список термінів, що найбільш адекватно відображають його тематику. Документу приписується вектор розмірності, рівний числу термінів, якими можна скористатися при пошуку. Якщо використовується булева векторна модель, то елемент вектора рівний 1 або 0, в залежності від наявності або відсутності терміну в ПОД. У більш складних моделях терміни зважуються — елемент вектора рівний не 1 або 0, а деякому числу (вазі), що відображає відповідність даного терміну документу. Саме остання модель стала найбільш популярною в ІПС Internet. Лінійна модель застосовується в системах Lycos, WebCrawler, AltaVista, OpenText i AliWeb.

Перша задача, яка вирішується в ІПС, — це визначення списку ключових слів, які характеризують документ чи інший інформаційний ресурс. Ця процедура називається індексуванням. Іноді процедуру індексування називають складанням файла інвертованого списку, в якому кожному терміну індексування ставиться у відповідність список документів, в яких він зустрічається. Така процедура є тільки окремим випадком, а точніше, технічним аспектом створення пошукового апарату ІПС.

Під час роботи у World Wide Web індексування виконують спеціальні програми, що називаються роботами-індексувальниками, які виконують сканування мережі. Робот переглядає мережу, знаходить нові ресурси, приписує їм терміни і вміщує в базу даних індексу. Головне питання полягає в тому, які терміни приписувати документам, звідки їх брати, адже ряд ресурсів взагалі не є текстом. Сьогодні роботи звичайно використовують для Індексування наступні джерела для поповнення своїх віртуальних словників: гіпертекстові посилання, заголовки, анотації, списки ключових слів, повні тексти документів, а також повідомлення адміністраторів про свої Web-сторінки. Для індексування Telnet, Gopher, FTP, нетекстовій інформації використовуються головним чином URL, для новин Usenet і поштових списків поля Subject і Keywords. Найбільший простір для побудови ПОД дають HTML документи. Однак не треба думати, що всі терміни з перелічених елементів документів потрапляють до їх пошукових образів. Дуже активно застосовуються списки заборонених слів (stop-words), які не можуть бути вжиті для індексування, загальних слів (прийменники, сполучники і т. п.). Таким чином навіть те, що в OpenText, наприклад, називається повнотекстовим індексуванням, реально є вибором слів з тексту документа і порівнянням з набором різних словників, після якого термін надходить до ПОД, а потім і до індексу системи. Для того щоб не збільшувати словників і індексів (індекс системи Lycos вже сьогодні рівний 4 Тбайт), застосовується таке поняття, як вага терміна. Документ звичайно індексується через 40—100 найбільш вагомих термінів.