
- •Лекція 1. Пошукові системи Інтернет
- •1. Основні поняття пошукових систем
- •Пошукові системи містять три основні компоненти:
- •2. Аналіз популярності пошукових систем
- •3. Правила інтерпретації запитів Google
- •4. Мова запитів Google
- •1. Пошук будь-якого із заданих слів.
- •2. Пошук точної фрази.
- •3. Пріоритет слова.
- •4. Виключення слова.
- •5. Заміна слова.
- •6. Схожі слова.
- •7. Пошук документів певного формату.
- •8. Пошук на конкретному сайті.
- •9. Числові діапазони значень.
- •10. Діапазони дат задані в місяцях.
- •11. Діапазони дат задані в днях.
- •12. Тлумачення термінів.
- •13. Місцерозташування слова.
Лекція 1. Пошукові системи Інтернет
План
Основні поняття пошукових систем
Аналіз популярності пошукових систем
Правила інтерпретації запитів Google
Мова запитів Google
1. Основні поняття пошукових систем
Сучасний Інтернет є унікальним безмежним сховищем знань, де можна отримати відповідь практично на будь-яке питання.
Для орієнтування в цьому практично нескінченному невичерпному швидкозмінному потоці інформації служать спеціальні інформаційно-пошукові системи. Це складні технічні комплекси, що містять десятки швидкодіючих комп'ютерів, обслуговування яких ведуть сотні фахівців.
Практика доводить, що ефективно і правильно використовувати пошукові системи вміють не більше 3% користувачів Інтернету. Зазвичай, пересічний користувач на запит з 1-2 слів отримує інформацію, що охоплює значно більший простір ніж потрібно.
Пошукові системи інакше називають: пошуковими засобами або пошуковими машинами, жаргонною назвою є пошуковики.
Пошукові системи містять три основні компоненти:
Веб-сторінка з пошуковим механізмом, яку користувачі використовують як інтерфейс для взаємодії з базою даних.
База даних в якій міститься інформація, що зібрана спеціальними програмами пошукової системи. Наявністю бази даних пояснюється висока швидкість виведення результатів пошуку.
Пошукові роботи (Robots) – спеціальні програми, які періодично «відвідують» сайти і збирають відомості про вміст сторінок, тобто індексують їх і наповнюють базу даних пошукової системи.
Щоб скористатися пошуковою системою потрібно завантажити її веб-сторінку і сформувати запит, за яким відбувається відбір документів з бази даних. Запит формується за допомогою ключових слів (одного або кількох). Результати пошуку видаються користувачу у вигляді переліку адрес сторінок (гіперпосилань) і короткої анотації до них (сніппету).
Пошук – це процедура відбору потрібних документів, що зберігаються в Інтернеті. Пошук здійснюється або автоматично за допомогою ключових слів, або шляхом послідовного проходження користувачем по рубриках в каталогах.
Ключове слово – це будь-яка лексична одиниця природної мови, яка найбільшою мірою відображає зміст шуканого документа. При формуванні запиту можуть використовуватися не лише окремі ключові слова, але і словосполучення, що складаються з кількох ключових слів.
Запит – це набір ключових слів, за допомогою яких пошукова система автоматично проводить пошук і відбір необхідних документів. Іншими словами, запит – це інструкція (команда) для пошукової системи на пошук потрібних документів.
Запити бувають двох типів: прості і складні (або розширені, advanced). Прості запити складаються з окремих ключових слів або словосполучень. Складні запити, окрім ключових слів, містять логічні чи інші оператори.
Пошукова система, використовуючи принципи штучного інтелекту, формує список документів (посилань на них), відповідно до ступеня їх релевантності.
Релевантність – відповідність знайденого в процесі пошуку документа до зробленого запиту. Найбільш точно відібрані документи розташовуються на початку списку документів, що формується в процесі пошуку.
Індексація – це процедура автоматичного заповнення бази даних пошукової системи, в якій зберігаються короткий зміст та анотації до сторінок і доменні адреси, за якими розміщені сторінки.
Коли пошукова система отримує конкретний запит на пошук потрібної інформації, то її пошуковий механізм порівнює ключові слова, що введені користувачем, з ключовими словами, що отримані під час індексації і збережені в базі даних системи. При збіганні цих слів користувачу видається назва сторінки, короткий опис, або абзац, де зустрічаються пошукові слова і доменна адреса даної сторінки.
Сучасні пошукові системи постійно вдосконалюють свої алгоритми роботи, і прагнуть проводити індексацію всього документа, а не лише його назви чи перших абзаців тексту.
Найбільш досконалі роботи при індексації сканують і головну сторінку і решту сторінок, заходячи за гіперпосиланнями вглиб сайту. Попередня індексація документів Інтернету дозволяє згодом за кілька секунд обслуговування запиту обробити (відсортувати) гігабайти різноманітної інформації і отримати якісний результат пошуку.