Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Основи Internet-технологій. Тема 7

.pdf
Скачиваний:
16
Добавлен:
12.02.2016
Размер:
439.69 Кб
Скачать

Основи Internet-технологій

ТЕМА №7

Пошук інформації в Internet

Пошукові інструменти Пошукові інструменти - це особливе програмне

забезпечення, основна мета якого - забезпечити найбільш оптимальний і якісний пошук інформації для користувачів Інтернету. Пошукові інструменти розміщуються на спеціальних вебсерверах, кожен з яких виконує певну функцію:

Аналіз веб-сторінок і занесення результатів аналізу на той чи інший рівень бази даних пошукового сервера.

Пошук інформації за запитом користувача.

Забезпечення зручного інтерфейсу для пошуку інформації та перегляду результату пошуку користувачем.

Сайти найпопулярніших пошукових систем

google.com.ua — пошукова система, яка допоможе знайти текстові файли, зображення, новини, відео.

bing.com — пошукова система компанії Microsoft. Є змога переглянути результати пошуку на одній веб-сторінці. Відсутність реклами. Можливість пошуку відео, зображень, новин, а також онлайн-перекладача.

yandex.ua — сайт російської ІТ-компанії, яка має Інтернет-портал та систему пошуку. Користується великою популярністю, адже виконує більше 30 сервісів. Цей сайт україномовний, у компанії є російськомовний та англомовний сайти.

yahoo.com — міжнародна пошукова система для тих користувачів, хто володіє англійською мовою. Вся інформація англійською мовою, хоча можна знайти російськомовний сайт цієї пошукової системи. shukalka.com.ua — українська пошукова система. Перехоплює дух і піднімається настрій від дизайну сторінки. На сайті можна працювати українською або російською мовами.

yottos.com.ua — пошукова система, асоціація при входженні на сайт — стриманість та мінімалізм. Тільки потрібна інформація на сайті. Можна обрати мову пошуку: українська, російська, англійська. При пошуку довше завантажувались сторінки, ніж в інших пошукових системах.

meta.ua — українська пошукова система. Сайт працює трьома мовами: українською, російською та англійською. На сайті можна зареєструватись. Окрім пошуку інформації, ви можете прочитати найсвіжіші та найгарячіші новини. Велика кількість реклами.

Пошукові машини

Машини веб-пошуку - це сервери з величезною базою даних URL-адрес, які автоматично звертаються до сторінок WWW по всіх цих адресах, вивчають вміст цих сторінок, формують і прописують ключові слова зі сторінок у свою базу даних (індексує сторінки).

Пошукова машина являє собою комплект програм, в основі якого лежать наступні п'ять.

Spider («павук») — програма, що завантажує в пошукову машину Web-сторінки. Працює аналогічно браузерові, встановленому на комп'ютері користувача, але нічого не відображає ні на якому екрані.

Для отримання уявлення про те, що саме завантажує в пошукову систему "павук", відкрийте яку-небудь Web-сторінку і виберіть у меню→ Вид браузера →Перегляд HTML-коду.

Crawler («черв'як», або «подорожуючий павук») — програма,

здатна знайти на Web-сторінці всі посилання на інші сторінки. Її задача — визначити, куди далі повинен повзти "павук", керуючись посиланнями або заздалегідь заданим списком адрес.

Indexer (індексатор) — програма, що "розбирає" сторінку на складові частини й аналізує їх. Виокремлюються й аналізуються

заголовки Web-сторінок, заголовки документів, посилання, текст документів, окремо — текст, виділений напівжирним шрифтом, курсивом і т.д.

Database (база даних) — сховище всіх даних, що пошукова система завантажує й аналізує. Вимагає величезних ресурсів як для збереження, так і для наступної обробки.

Search Engine Results Engine (система видачі результатів пошуку) вирішує, які сторінки задовольняють запитові користувача й у якому ступені. Саме з цією частиною пошукової системи "спілкується" користувач.

Ранжування - визначення порядку згідно рангу, авторитету, респектабельності або релевантності, якщо йдеться про сайт.

Ранжування - це процес, результат якого користувач бачить, отримуючи відповідь пошукової системи на своє питання. Система отримує і обробляє запит, сортує все, що є в своїй базі дані, тобто виробляє ранжування, і видає результат. Видача, як відомо, являє собою сторінку або декілька, де в певному порядку розташовані посилання, відповідальні питанням. Розташування всіх сайтів у відповідну ланцюжок і є ранжування.

Релева́нтність (англ. relevance) — міра відповідності отримуваного результату бажаному. В термінах пошуку — це міра відповідності результатів пошуку завданню поставленою в пошуковому запиті. Визначає, наскільки повно той або інший документ відповідає критеріям, вказаним в запиті користувача.

ОСНОВНІ ХАРАКТЕРИСТИКИ ПОШУКОВИХ СИСТЕМ ПОВНОТА.

Повнота є однією з найголовніших характеристик пошуку, вона являє собою відношення цифри знайдених за запитом інформаційних документів до їх загального числа в інтернеті, які стосуються даному запиту.

ТОЧНІСТЬ.

Ще одна основна функція пошукової системи - точність. Вона визначає ступінь відповідності запиту користувача знайдених сторінок в Мережі.

АКТУАЛЬНІСТЬ.

Це значуща складова пошуку, яку характеризує час, що проходить з моменту опублікування інформації в інтернеті до занесення її до індексного базу пошуковика.

ШВИДКІСТЬ ПОШУКУ.

Така функція як швидкість пошуку найтіснішим чином пов'язана з так званою «стійкістю до навантажень». Щомиті до пошуку звертається величезна кількість людей, подібна завантаженість вимагає значного скорочення часу для обробки одного запиту. Тут інтереси, як пошукової системи, так і користувача цілком збігаються: відвідувач хоче отримати результати якнайшвидше, а пошукова система повинна відпрацювати його запит теж максимально швидко, щоб не пригальмувати обробку наступних запитів НАОЧНІСТЬ.

Наочне представлення результатів є найважливішим елементом зручності пошуку. По безлічі запитів пошукова система знаходить тисячі, а в деяких випадках і мільйони різних документів. Внаслідок нечіткості складання ключових фраз для пошуку або його НЕ точності, навіть самі перші результати запиту не завжди мають тільки потрібні відомості.

При

ранжуванні

сторінок

пошукові

системи

використовують різні технології, які поділяються на декілька груп, з яких основними є:

Системи на основі лексичного підходу.

Системи на основі структурного гіпертекстового підходу.

Системи на основі оцінки популярності ресурсів.

Системи на основі експертного оцінювання ресурсів.

Першу групу становлять системи, що використовують лінгвістичний підхід до впорядкування інформації. Для кожної сторінки оцінюється ступінь релевантності її тексту (та деяких інших текстів – зокрема текстів зовнішніх посилань на сторінку) до запиту. Далі формується список релевантних сторінок на основі ступеня релевантності.

При використанні лінгвістичного підходу до ранжування результатів пошуку використовуються лінгвістичні методи, які дозволяють на основі тексту сторінки робити припущення щодо її відповідності запиту (релевантності). Зокрема аналізується:

частота появи ключових слів запиту в сторінці;

частота появи словоформ ключових слів у сторінці;

частота появи синонімів до ключових слів у сторінці;

робиться спроба співставлення семантики запиту до семантики сторінки.

Поза увагою пошукових машин залишається текстова інформація, розміщена в графічних растрових файлах та (за незначним винятками) в інших мультимедійних файлах.

Пошукові системи, що використовують лінгвістичні підходи до ранжування результатів пошуку, при визначенні рангу практично повністю базуються на внутрішній інформації, що розміщена на сторінці, або на інформації, що може виявитися недостовірною. Це призводить до можливості спаму пошукових систем.

Зметою захисту від спаму в пошукових машинах використовуються

дещо модифіковані алгоритми обчислення релевантності, які дозволяють визначати та відсіювати сторінки, що містять:

незв’язний текст; слова з надмірною частотою появи;

автогенерований текст; текст, що має неприродні візуальні властивості (нечитабельний або,

навпаки, текст з надзвичайно великими літерами тощо); примітивну переадресацію на інші сторінки.