Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Сытник (учебник) (готово).doc
Скачиваний:
94
Добавлен:
10.11.2018
Размер:
3.96 Mб
Скачать

13.5.2. Механізми пошуку в Internet

Після індексації ресурсів і визначення їх ПОД, починається побудова пошукового апарату. Абсолютно очевидно, що безпо­середній перегляд файлів ПОД займе багато часу, що абсолютно не прийнятно для інтерактивної системи WWW. Для прискорен­ня пошуку будується індекс, яким в більшості систем є набір пов'язаних між собою файлів, орієнтованих на швидкий пошук даних по запиту. Структура і склад індексів різних систем мо­жуть відрізнятися один від одного і залежать від багатьох чинни­ків: розміру масиву пошукових образів, інформаційно-пошукової мови, розміщення різних компонентів системи і т. п. Одним з ва­ріантів структури індексу є побудова його у вигляді таблиці, що вміщує ідентифікаторів сторінок (page-ID), таблиці ключових слів (Keyword-ID), таблиці модифікації сторінок, таблиці заголов­ків, таблиці гіпертекстових зв'язків, інвертованого (IL) і прямого списку (FL).

Page-ID відображує ідентифікатори сторінок в їх URL, Keyword-ID — кожне ключове слово в унікальний ідентифікатор цього слова, таблиця заголовків — ідентифікатор сторінки в за­головок сторінки, таблиця гіпертекстових посилань — ідентифі­катор сторінок у гіпертекстові посилання на цю сторінку. Інвер­тований список ставить у відповідність кожному ключовому слову документа список пар — ідентифікатор сторінки, позиція слова в сторінці. Прямий список — це масив пошукових образів сторі­нок. Всі ці файли так чи інакше використовуються при пошуку, але головним серед них є файл інвертованого списку. Результат пошуку в даному файлі — це об'єднання і/або перетин списків ідентифікаторів сторінок. Результуючий список, який перетво­рюється в список заголовків, забезпечених гіпертекстовими по­силаннями повертається користувачеві в його програму перегля­ду Web. Для того щоб швидко шукати записи інвертованого списку, над ним надбудовується ще декілька файлів, наприклад, файл буквених пар з вказівкою записів інвертованого списку, що починаються з цих пар. Крім цього, застосовується механізм пря­мого доступу до даних — хешування.

Ефективність пошуку в кожної конкретної ІПС визначається виключно архітектурою індексу. Як правило, спосіб організації масивів індексів є секретом фірми.

13.5.3. Інформаційно-пошукова мова системи

Важливою складовою ІПС є інформаційно-пошукова мова (ІПМ), яка дозволяє сформулювати запит до системи в простій і зрозумілій формі. Вже давно відмовились від природної мови для створення ІПМ. Хоча такі підходи використовувалися раніше, зокрема саме цей підхід в системі Wais на перших стадіях її реа­лізації. Якщо навіть користувачеві пропонується вводити запити на природній мові, то це ще не означає, що система буде здійс­нювати семантичний розбір запиту користувача. Фраза запиту розбивається на слова, з яких віддаляються заборонені і загальні слова, іноді проводиться нормалізація лексики, а потім всі слова зв'язуються або логічним AND, або OR. Отже, запит типу

Software that is used on Unix Platform

буде перетворений так:

Unix AND Platform AND Software,

що буде означати приблизно наступне: «Знайди всі документи, в яких слова Unix, Platform і Software зустрічаються одночасно».

Можливі і варіанти. Так, в більшості систем фраза «Unix Platform» буде пізнана як ключова фраза і не буде розділятися на окремі слова. Інший підхід полягає в обчисленні міри близькості між запитом і документом. Саме цей підхід використовується в Lycos. У цьому випадку відповідно до векторної моделі представ­лення документів і запитів обчислюється їх міра близькості. Сьогодні відомо багато різних способів обчислення близькості. Найчастіше застосовується косинус кута між пошуковим обра­зом документа і запитом користувача. Звичайно ці проценти від­повідності документа запиту і видаються як довідкова інформа­ція при списку знайдених документів.

Найбільш розвиненою мовою запитів з сучасних ІПС Internet володіє Alta Vista. Крім звичайного набору AND, OR, NOT ця система дозволяє використати ще і NEAR, що дозволяє організу­вати контекстний пошук. Усі документи в системі розбиті на по­ля, тому в запиті можна вказати, в якій частині документа корис­тувач сподівається побачити ключове слово: посилання, заголо­вок, анотація і т. п. Можна також задавати поле ранжування ви­дачі і критерій близькості документів запиту.