13.5.2. Механізми пошуку в Internet

Після індексації ресурсів і визначення їх ПОД, починається побудова пошукового апарату. Абсолютно очевидно, що безпосередній перегляд файлів ПОД займе багато часу, що абсолютно не прийнятно для інтерактивної системи WWW. Для прискорення пошуку будується індекс, яким в більшості систем є набір пов'язаних між собою файлів, орієнтованих на швидкий пошук даних по запиту. Структура і склад індексів різних систем можуть відрізнятися один від одного і залежать від багатьох чинників: розміру масиву пошукових образів, інформаційно-пошукової мови, розміщення різних компонентів системи і т. п. Одним з варіантів структури індексу є побудова його у вигляді таблиці, що вміщує ідентифікаторів сторінок (page-ID), таблиці ключових слів (Keyword-ID), таблиці модифікації сторінок, таблиці заголовків, таблиці гіпертекстових зв'язків, інвертованого (IL) і прямого списку (FL).

Page-ID відображує ідентифікатори сторінок в їх URL, Keyword-ID — кожне ключове слово в унікальний ідентифікатор цього слова, таблиця заголовків — ідентифікатор сторінки в заголовок сторінки, таблиця гіпертекстових посилань — ідентифікатор сторінок у гіпертекстові посилання на цю сторінку. Інвертований список ставить у відповідність кожному ключовому слову документа список пар — ідентифікатор сторінки, позиція слова в сторінці. Прямий список — це масив пошукових образів сторінок. Всі ці файли так чи інакше використовуються при пошуку, але головним серед них є файл інвертованого списку. Результат пошуку в даному файлі — це об'єднання і/або перетин списків ідентифікаторів сторінок. Результуючий список, який перетворюється в список заголовків, забезпечених гіпертекстовими посиланнями повертається користувачеві в його програму перегляду Web. Для того щоб швидко шукати записи інвертованого списку, над ним надбудовується ще декілька файлів, наприклад, файл буквених пар з вказівкою записів інвертованого списку, що починаються з цих пар. Крім цього, застосовується механізм прямого доступу до даних — хешування.

Ефективність пошуку в кожної конкретної ІПС визначається виключно архітектурою індексу. Як правило, спосіб організації масивів індексів є секретом фірми.

13.5.3. Інформаційно-пошукова мова системи

Важливою складовою ІПС є інформаційно-пошукова мова (ІПМ), яка дозволяє сформулювати запит до системи в простій і зрозумілій формі. Вже давно відмовились від природної мови для створення ІПМ. Хоча такі підходи використовувалися раніше, зокрема саме цей підхід в системі Wais на перших стадіях її реалізації. Якщо навіть користувачеві пропонується вводити запити на природній мові, то це ще не означає, що система буде здійснювати семантичний розбір запиту користувача. Фраза запиту розбивається на слова, з яких віддаляються заборонені і загальні слова, іноді проводиться нормалізація лексики, а потім всі слова зв'язуються або логічним AND, або OR. Отже, запит типу

Software that is used on Unix Platform

буде перетворений так:

Unix AND Platform AND Software,

що буде означати приблизно наступне: «Знайди всі документи, в яких слова Unix, Platform і Software зустрічаються одночасно».

Можливі і варіанти. Так, в більшості систем фраза «Unix Platform» буде пізнана як ключова фраза і не буде розділятися на окремі слова. Інший підхід полягає в обчисленні міри близькості між запитом і документом. Саме цей підхід використовується в Lycos. У цьому випадку відповідно до векторної моделі представлення документів і запитів обчислюється їх міра близькості. Сьогодні відомо багато різних способів обчислення близькості. Найчастіше застосовується косинус кута між пошуковим образом документа і запитом користувача. Звичайно ці проценти відповідності документа запиту і видаються як довідкова інформація при списку знайдених документів.

Найбільш розвиненою мовою запитів з сучасних ІПС Internet володіє Alta Vista. Крім звичайного набору AND, OR, NOT ця система дозволяє використати ще і NEAR, що дозволяє організувати контекстний пошук. Усі документи в системі розбиті на поля, тому в запиті можна вказати, в якій частині документа користувач сподівається побачити ключове слово: посилання, заголовок, анотація і т. п. Можна також задавати поле ранжування видачі і критерій близькості документів запиту.

<<< < Предыдущая 58 59 60 61 62 63 64 65 66 67 68 69 7071 / 8271 72 73 74 75 76 77 78 79 80 81 82 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.03.2015111.62 Кб8схемы.doc
#
07.03.201626.38 Кб50Сценарий "Масленица".docx
#
07.03.201644.03 Кб36Сценарий Красной Шапочки..doc
#
07.03.2016156.16 Кб36Сценарий Мисс Осень и Мистер Листопад.doc
#
07.03.2016793.29 Кб67Сценарий мой как Алиса спасла новый год.docx
#
10.11.20183.96 Mб94Сытник (учебник) (готово).doc
#
07.03.20163.45 Mб25Сэмюэл Хатингтон. Столкновение цивилизаций.pdf
#
21.07.2019111.1 Кб1Т. 1. Социол как наука. Общ-во и его компоненты....doc
#
11.07.2019137.73 Кб4Т. 4. Глобализация.doc
#
07.12.2018249.86 Кб3Т. 9. Семейно-брачные отношения.doc
#
20.03.201580.67 Кб120Таблица перевода цветов ниток мулине.docx