13.5. Шформаційно-пошукові системи internet

Мережа Internet з'явилась близько двадцяти років тому в США. Нині це вже глобальна міжнародна інформаційна система, яка може бути використана як для інформаційного пошуку, так і у комерційних цілях для інформаційного обміну як корпоративна мережа. Загальну схему інформаційно-пошукової системи Internet зображено на рис. 13.2.

Рис. 13.2. Типова схема інформаційно-пошукової системи

Клієнт — це програма перегляду конкретного інформаційного ресурсу. Найбільш популярні сьогодні мультипротокольні програми типу Netscape Navigator. Така програма забезпечує перегляд документів WWW, Gopher, Wais, FTP-архівів, поштових списків розсилки і груп новин Usenet. У свою чергу всі ці інформаційні ресурси є об'єктом пошуку інформаційно-пошукової системи.

Інтерфейс користувача — це не просто програма перегляду, у разі інформаційно-пошукової системи під цим словосполученням розуміють також спосіб спілкування користувача з пошуковим апаратом, системою формування запитів і перегляду результатів пошуку.

Пошукова машина — застосовується для трансляції запиту на інформаційно-пошукову мову (ІПМ), у формальний запит системи, пошуку посилань на інформаційні ресурси мережі і видачі результатів цього пошуку користувачеві.

Бази даних індексів — це основний масив даних ІПС, використовуваних для пошуку адреси інформаційного ресурсу. Архітектура індексу влаштована таким чином, щоб пошук відбувався максимально швидко і при цьому можна було б визначити цінність кожного із знайдених інформаційних ресурсів мережі.

Запити користувача — зберігаються в його (користувача) особистій базі даних. На відлагодження кожного запиту йде досить багато часу, і тому надзвичайно важливо запам'ятовувати запити, на які система дає гарні відповіді.

Робот-індексувальник — застосовується для сканування Internet і підтримки бази даних індексу в актуальному стані. Ця програма є основним джерелом інформації про стан інформаційних ресурсів мережі.

WWW sites — це весь Internet або точніше — інформаційні ресурси, перегляд яких забезпечується програмами перегляду.

Розглянемо тепер призначення і принципи побудови кожної з цих компонентів докладніше і визначимо, в чому відмінність даної системи від традиційної ІПС для локального типу.

13.5.1. Подання інформаційних ресурсів у internet

Інформаційними ресурсами в ІПС Internet документи шести основних типів: WWW-сторінки, Gopher-файли, документи Wais, записи архівів FTP, новини Usenet і статті поштових списків розсилки. Усе це досить різнорідна інформація, подана у вигляді різних, ніяк неузгоджених один з одним форматів даних: тексти, графічна і аудіоінформація тощо.

У традиційних ІПС використовується поняття пошукового образу документа — ПОД. Цим терміном позначають щось, що замінює собою документ і що використовується при пошуку замість реального документа. Найбільш популярною моделлю створення ПОД є векторна модель, в якій кожному документу приписується список термінів, що найбільш адекватно відображають його тематику. Документу приписується вектор розмірності, рівний числу термінів, якими можна скористатися при пошуку. Якщо використовується булєва векторна модель, то елемент вектора рівний 1 або 0, в залежності від наявності або відсутності терміну в ПОД. У більш складних моделях терміни зважуються — елемент вектора рівний не 1 або 0, а деякому числу (вазі), що відображає відповідність даного терміну документу. Саме остання модель стала найбільш популярною в ІПС Internet. Лінійна модель застосовується в системах Lycos, WebCrawler, AltaVista, OpenText і AliWeb.

Перша задача, яка вирішується в ІПС, — це визначення списку ключових слів, які характеризують документ чи інший інформаційний ресурс. Ця процедура називається індексуванням. Іноді процедуру індексування називають складанням файла інвертованого списку, в якому кожному терміну індексування ставиться у відповідність список документів, в яких він зустрічається. Така процедура є тільки окремим випадком, а точніше, технічним аспектом створення пошукового апарату ІПС.

Під час роботи у World Wide Web індексування виконують спеціальні програми, що називаються роботами-індексувальни-ками, які виконують сканування мережі. Робот переглядає мережу, знаходить нові ресурси, приписує їм терміни і вміщує в базу даних індексу. Головне питання полягає в тому, які терміни приписувати документам, звідки їх брати, адже ряд ресурсів взагалі не є текстом. Сьогодні роботи звичайно використовують для індексування наступні джерела для поповнення своїх віртуальних словників: гіпертекстові посилання, заголовки, анотації, списки ключових слів, повні тексти документів, а також повідомлення адміністраторів про свої Web-сторінки. Для індексування telnet, gopher, ftp, нетекстовій інформації використовуються головним чином URL, для новин Usenet і поштових списків поля Subject і Keywords. Найбільший простір для побудови ПОД дають HTML документи. Однак не треба думати, що всі терміни з перелічених елементів документів потрапляють до їх пошукових образів. Дуже активно застосовуються списки заборонених слів (stop-words), які не можуть бути вжиті для індексування, загальних слів (прийменники, сполучники і т. п.). Таким чином навіть те, що в OpenText, наприклад, називається повнотекстовим індексуванням, реально є вибором слів з тексту документа і порівнянням з набором різних словників, після якого термін надходить до ПОД, а потім і до індексу системи. Для того щоб не збільшувати словників і індексів (індекс системи Lycos вже сьогодні рівний 4 Тбайт), застосовується таке поняття, як вага терміна. Документ звичайно індексується через 40—100 найбільш вагомих термінів.

<<< < Предыдущая 58 59 60 61 62 63 64 65 66 67 68 6970 / 8270 71 72 73 74 75 76 77 78 79 80 81 82 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
07.03.201626.38 Кб54Сценарий "Масленица".docx
#
07.03.201644.03 Кб38Сценарий Красной Шапочки..doc
#
07.03.2016156.16 Кб38Сценарий Мисс Осень и Мистер Листопад.doc
#
07.03.2016793.29 Кб72Сценарий мой как Алиса спасла новый год.docx
#
01.07.20252.84 Mб0Съемник подшипников.rtf
#
10.11.20183.96 Mб130Сытник (учебник) (готово).doc
#
07.03.20163.45 Mб31Сэмюэл Хатингтон. Столкновение цивилизаций.pdf
#
01.07.20251.57 Mб0Т екст книги рус.doc
#
21.07.2019111.1 Кб4Т. 1. Социол как наука. Общ-во и его компоненты....doc
#
11.07.2019137.73 Кб4Т. 4. Глобализация.doc
#
07.12.2018249.86 Кб5Т. 9. Семейно-брачные отношения.doc