Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект лекций по информатике (2010-2011)(Лекц....doc
Скачиваний:
74
Добавлен:
04.11.2018
Размер:
20 Mб
Скачать

5.10. Пошук в Internet

Задача пошуку необхідної інформації була б практично нездійсненною, якби не спеціальні пошукові служби, що дозволяють виконувати пошук за заданих користувачем запитах. На серверах таких служб є спеціальні програми (їх називають роботами або павуками), які збирають інформацію в Web і повертають на свій сервер всі знайдені сторінки. Із накопиченої таким чином інформації формуються особливим чином проіндексовані бази.

5.11. Пошукові сервери

Далі наведені описи найпопулярніших пошукових служб.

AltaVista Search

httр://www.altavista.digital. com

Вузол AltaVista Search був організований в грудні 1995 р. Він володіє величезною базою даних з індексацією за повним текстом і могутніми пошуковими засобами.

AltaVista - це якнайкращий варіант для пошуку, для якого використовуються його досконалі пошукові засоби, що налагоджуються. Результати, одержувані при простому пошуку за ключовими словами, не так вражаючі. Замовивши простий пошук, заданий в AltaVista за умовчанням, користувач одержить тисячі документів. Оскільки при цьому сортування результатів за категоріями не виконується, доводиться вручну проглядати надану інформацію. В AltaVista не передбачені засоби для розподілу за категоріями, отримання списків активних (hot) вузлів, новин або інших можливостей пошуку за змістом, якими оснащено багато вузлів-конкурентів.

Для того, щоб дістати можливість користуватися могутніми інструментами AltaVista, користувачу слід освоїти методику складання складних запитів. На сторінці складного пошуку Advanced Search вузла AltaVista наданий повний набір пошукових засобів, проте всі ці оператори є і на сторінці простого пошуку. Користувач може задавати логічні оператори (AND, OR і NOT), вказувати максимальний інтервал між ключовими словами (див. табл. 5.1), виконувати пошук з урахуванням заголовних і рядкових букв, а також обмежувати пошук за даті. Можна додавати символи як в кінці ключового слова (щоб врахувати закінчення множини або суфікси), так і в середині слова (щоб врахувати можливі альтернативні написання). Користувач може обмежити сферу пошуку певними елементами.

Таблиця 5.1

Перелік параметрів і операторів пошуку

Параметр/оператор

Опис

Параметри елементарного пошуку

+

Якщо перед словом стоїть знак "+", воно повинно бути обов’язково присутнім на сторінці

_

Якщо перед словом стоїть знак "-", воно повинно бути обов’язково відсутнім на сторінці

*

Буде виконаний пошук фрази, що складається із слів, розділених знайомий ":"

« »

Вказаний в лапках фрагмент обов’язково повинно бути присутнім на сторінці в тому вигляді, в якому він заданий в лапках

*

Зірочка може розташовуватися в довільній частині слова і замінює собою ланцюжок будь-яких символів (*oad - шукати за словах, що закінчується на ;’oad")

Оператори вдосконаленого пошуку

AND (&)

Обидва фрагменти повинні знаходитися на сторінці

OR(!)

Хоча б один фрагмент повинен знаходитися на сторінці

NOT (!)

Вказаний фрагмент не повинен знаходитися на сторінці

NEAR(~)

Задані фрагменти повинні знаходитися на одній сторінці на відстані не більше десяти слів

0

Служить для об’єднання слів у вирази

Одна з найцінніших функцій сторінки складного пошуку Advanced носить назву “критерію ранжирування результатів”. За допомогою цієї функції користувач має нагоду призначити вагові коефіцієнти ключовим словам, щоб найважливіші для нього документи опинялися в списку відповідей першими.

Вузол AltaVista надає користувачу могутні і зручні засоби пошуку конкретної інформації, але для простого пошуку за ключовими словами цей вузол не дуже хороший, оскільки можна заплутатися в одержаних результатах пошуку.

Excite

httр://www. excite. com

Даний вузол має могутній пошуковий механізм, можливість автоматичної індивідуального налагодження інформації, що надається, а також складені кваліфікованим редакційним персоналом описи множини вузлів. Excite вигідно відрізняється від інших пошукових вузлів тим, що дозволяє вести пошук у службах новин і публікує огляди Web-сторінок.

У пошуковому механізмі Excite використовуються як засоби стандартного пошуку за ключовими словами, так і евристичні методи пошуку за змістом. Завдяки такому поєднанню, можна знайти цілком відповідні за значенням сторінки Web, навіть якщо вони не містять саме вказаних користувачем ключових слів. База даних цього вузла складається із понад 50 млн. сторінок з індексацією за повним текстом.

У результатах пошуку виводяться назва знайденої сторінки, повний покажчик URL, коротка анотація і ступінь відповідності запиту. Функція “More Like This” забезпечує ефективний спосіб запиту за зразком для пошуку аналогічних сторінок. Функція "Sort Site" дозволяє групувати одержані результати за наочними областями: всі сторінки області поміщаються в один абзац із назвою вузла. Завдяки цьому легше побачити, скільки вузлів вже проглянуто і скільки відповідних сторінок було знайдено.

Крім цього користувач може обмежити пошук (наприклад Web або Usenet). Для складного пошуку в Excite передбачені стандартні логічні операції, зокрема з вкладеними логічними умовами. Значущість кожного пошукового елемента можна підвищити, додавши знак вставки (^) і вказавши ваговий коефіцієнт. Якщо в заданому користувачем поєднанні з двох слів перше починається із заголовної букви, Excite вважає, що ведеться пошук власного імені. В Excite немає спеціального інтерфейсу для формування складних запитів, проте він має в своєму розпорядженні обширну довідкову систему.

Excite містить описи-анотації більш ніж 60 тис. вузлів Web, розміщені відповідно до ієрархії заголовків предметних областей. Довжина кожної анотації складає близько чотирьох рядків.

Послуга Excite Live! дає можливість дістати доступ до журналу новин Web, в який можна внести і свою інформацію. Функція, що входить до складу NewsTracker відбирає інформацію приблизно з 400 журналів Web відповідно до вказаних користувачем початкових тем і пошукових слів. Щоб полегшити пошук, NewsTracker навіть пропонує зв’язані слова. На сторінці з одержаними результатами є екранна кнопка Liked It - необхідна функції NewsTracker для того, щоб уточнити, які статті викликають найбільший інтерес. Також в арсенал цінних засобів Excite входить набір карт і необхідні інструменти пошуку людей в мережі.

Окрім ключових слів в критерії пошуку Excite можуть бути включені додаткові параметри і оператори, що визначають специфіку пошуку. До додаткових параметрів і операторів відносяться: “+". "-", “( )", AND, OR, AND NOT. Недоліком Excite є дещо хаотичний інтерфейс.

HotBot

http://www. hotbot. com

HotBot - це база даних, що містить близько 54 млн. документів, індексованих за повним текстом, і один з якнайповніших пошукових механізмів у Web. Його прості у використовуванні засоби пошуку за логічних умов і засобу для обмеження пошуку типом середовища і Cyberplace (будь-якою областю чи вузлом Web), що запам’ятовує, допоможуть користувачу знайти необхідну інформацію, відсіваючи при цьому непотрібну. Замість використання при складанні критеріїв логічних виразів HotBot надає можливість вибрати необхідні параметри із списків, що розкриваються

HotBot, розроблений сумісно фірмами Hotwired і Inktomi Соф., упорядковує результати пошуку за рядом критеріїв, наприклад за тим, скільки разів зустрічається якийсь термін у конкретному документі, чи є він у заголовку або в управляючому коді. Інтерфейс HotBot володіє багатими можливостями. Початковий екран пошуку дозволяє вказати усі чи деякі пошукові терміни, фрази, чиєсь ім’я або URL Засоби пошуку конкретної особи забезпечують обмежений пошук за близькістю.

Щоб підвищити пріоритет одних слів і виключити інші, слід клацнути клавішею миші по кнопці Modify. HotBot дозволяє обмежити рамки пошуку певним типом носія чи файлами з певним розширенням, наприклад GIF Існує також можливість обмежити пошук географічним регіоном, територією чи просто одним вузлом Web. Усі пошукові засоби HotBot подані простими у використовуванні меню чи селективними кнопками. За допомогою його інтерфейсу не складає труднощів побудувати свою пошукову сторінку і встановити власні значення, що приймаються за умовчанням.

Lycos

httр //www.lycos.com

До складу Lycos входять величезна база даних із числом URL понад 66 млн. і технологія власної розробки, в якій основна увага надається статистичному аналізу вмісту сторінок, а не індексації за повним текстом. Підсумок такого об’єднання - пошуковий механізм, що забезпечує часто значну простоту рішення задачі пошуку.

Як і багато які з основних пошукових вузлів, Lycos містить різноманітну цікаву інформацію, зокрема новини, огляди вузлів, посилання на популярні вузли, карти міст, а також засоби для пошуку адрес різних осіб і пошуку в Web зображень і звукових кліпів.

Проста за побудовою основна сторінка Lycos - вікно для введення запиту і вікно із списком, призначеним для пошуку по всій Web-групі вузлів, об’єднаних певною тематикою, або вузлах, що містять зображення і звукові кліпи, - дозволяє користувачу виконати нескладні пошуки.

Lycos упорядковує одержані відповіді за ступенем відповідності запиту за декількома критеріями, наприклад, за числом пошукових термінів, що зустрілися в анотації до документа (приводиться разом із кожною відповіддю), інтервалом між словами в конкретній фразі документа, місцеположенням термінів у документі.

Можна добитися поліпшення результатів пошуку, якщо скористатися наявними операторами. Крапка, поставлена після терміну, заблокує його вживання як основу слова, тому Lycos надасть відповіді тільки при повному збігу з цим терміном. Знак "мінус" виконує роль логічного оператора NOT. а знак долара - універсального символу. Немає можливості оформити запит на "сторінки, подібні до даної" за допомогою одержаної відповіді.

Існує можливість задати умови пошуку конкретніше, звернувшись до сторінки Custom Search. У Lycos не передбачені засоби для роботи зі всіма деталями синтаксису логічних операторів, операторами близькості для виконання пошуку за точним збігом фраз і інші пошукові функції, що є у інших подібних вузлів. Проте в інтерфейсі налагодження запиту є можливість включити в запит на пошук за декількома термінами базових операторів AND і OR, можна також замовити пошук збігів із різним ступенем точності - від низької до високої (але не абсолютної).

Lycos оснащений і іншими засобами для пошуку в Web. Найцікавіше з них - каталог мультимедіа, призначений для пошуку зображень і звукових кліпів у Web. При цьому користувачу не просто передається посилання на вузол, що береже зображення, що цікавлять, звукові файли і відеокліпи: клацнувши мишею на одержаній відповіді, Lycos надасть сам файл.

Подані в каталозі Sites Subject системи Lycos вузли підрозділяються на 16 категорій, які можна переглядати і через них діставати швидкий доступ до вузлів, відмінним інтенсивним трафікам (найпопулярнішим). В оглядах 5%-ного списку вузлів (Тор 5% Sites), вибраних навмання при перегляді, наводяться оцінки їх вмісту, подання інформації та оцінки в цілому.

WebCrawler

http/www. webcrawler. com

WebCrawler надає широкі можливості синтаксису для конкретизації запитів, а також великий вибір анотацій вузлів при порівняно нескладному інтерфейсі.

Слідом за кожною одержаною відповіддю WebCrawler поміщає невелику піктограму з приблизною оцінкою відповідності запиту. Функція Show Summaries виводить на екран сторінку з коротким резюме для кожної відповіді, його повним URL, точною оцінкою відповідності, а функція Similar Pages використовує цю відповідь в запиті за зразком як його ключові слова.

Графічного інтерфейсу для налагодження запитів у Web-Crawler немає. Синтаксичні конструкції достатньо прості: звичні логічні оператори AND, OR і NOT, оператор близькості NEAR (для нього передбачений ключ, що показує інтервал між ключовими словами), дужки для вкладених запитів; фрази, за яких виконується пошук, полягають в лапки. В WebCrawler існує оператор ADJ, вказуючий, що два слова повинні слідувати безпосередньо одне за іншим в порядку їх введення. Той же ефект може бути досягнутий за допомогою лапок. Проте не допускається використовування універсальних символів, а також неможливо призначити вагові коефіцієнти ключовим словам. Крім того, не існує можливості обмеження поля пошуку певною областю.

WebCrawler пропонує 15 категорій змісту, і. клацнувши мишею на одній з них, можна знайти декілька підкатегорій з короткими анотаціями множини цікавих вузлів. Можна негайно зв’язатися з одним з таких вузлів або продовжити пошук вузлів, що містять інформацію за темі, що цікавить. До числа інших корисних особливостей відносяться список 25 найпопулярніших вузлів, а також біжить рядок, що дає можливість простежувати активні запити, що вводяться іншими користувачами.

Yahoo!

http://www. уahoo.com

Yahoo! - перший і, як і раніше, один із найпопулярніших пошуковий вузол Web. Він може служити хорошою відправною точкою для будь-яких узагальнених пошуків у Web, оскільки за допомогою його обширної системи класифікації користувач напевно знайде вузол із добре організованою інформацією, якщо в індексах Yahoo! вона врахована.

Вміст Web підрозділяється на 14 загальних категорій, перерахованих на домашній сторінці Yahoo!. Залежно від специфіки запиту користувача існує можливість або працювати з цими категоріями, щоб ознайомитися з підкатегоріями і списками вузлів, або шукати конкретні слова і терміни по всій базі даних. Користувач може також обмежити пошук у межах будь-якого розділу або підрозділу Yahoo! У цьому випадку запит торкатиметься тільки заданої підмножини бази даних.

Завдяки тому що класифікація вузлів виконується людьми, а не комп’ютером, якість посилань звично дуже висока. Проте, якщо замовлений користувачем пошук не увінчався успіхом, то і уточнити його буде непросто, оскільки засобів для цього у Yahoo! замало. Ці засоби подані в графічній формі, в якій можна задати базові логічні оператори AND і OR; можна задати пошук за точним збігом тексту чи за основами слів. До складу Yahoo! входить пошуковий механізм AltaVista, тому у разі невдачі при пошуку на Yahoo! автоматично відбувається його повторення, але вже з використанням пошукового механізму AltaVista. Потім одержані результати передаються в Yahoo! Якщо користувач схоче виконати свій запит за допомогою іншого пошукового механізму, йому слід клацнути мишею на необхідному зв’язку з потрібним пошуковим механізмом у нижній частині сторінки з відповідями.

При виконанні пошуку за допомогою Yahoo! спочатку буде виведений на екран список категорій, до яких віднесений запит користувача, а потім перелік вузлів Yahoo! і категорії, яким ці вузли відповідають. Запит буде завантажений в текстове вікно і виконаний в AltaVista, якщо жодна із спроб в Yahoo! не принесла результатів.

Недоліком обмеження пошуку категоріями і заголовками вузлів є те, що число одержаних результатів істотно менше, ніж при використанні багатьох інших пошукових вузлів.

Yahoo! також забезпечує широкий вибір додаткових послуг. Користувачу надається можливість відправляти запити в DesaNews для пошуку в Usenet і в Four11, щоб взнати адреси електронної пошти. Yahoo! добре справляється з пошуком у вузлах, розташованих в певному регіоні, охоплюючи при цьому як міста, так і країни. Функція Yahooligans формує підмножину покажчика Yahoo!, відбираючи тільки відповідні для дітей вузли. Слід також наголосити на сторінці новин My Yahoo!, що налагоджується. Значні інвестиції в розробку Yahoo! були зроблені батьківською компанією видавництва PC Magazine - фірмою Softbank.

Хоча за допомогою Yahoo! важко добитися достатньої точності відповідей при пошуку за конкретних термінах, пошук за категоріями, складеними людьми, а не машиною дозволяє одержувати високоякісну інформацію для узагальнених запитів. Інтеграція з AltaVista і зв’язки з багатьма іншими пошуковими вузлами Web також обумовлюють тверді позиції даного пошукового серверу.

Rambler

httр://www. rambler. ru

Ця російськомовна пошукова служба володіє хорошими можливостями пошуку.

Це одна з поки що рідкісних російськомовних пошукових систем. Розділи, перераховані на домашній сторінці Rambler (див. рис. 5.31), детально освітлюють російськомовні Web-ресурси. В тому випадку, якщо користувачу необхідно працювати в специфічній галузі, йому слід скористатися запропонованою класифікацією інформації. Зручною можливістю роботи на Rambler є надання списку самих відвідуваних вузлів з кожної запропонованої тематики.

Стандартні засоби пошуку дозволяють оперувати безпосередньо з рядка "Пошук", розташованого у верхній частині сторінки Rambler.

Справа поміщена колонка гіда що містить вступну частину щотижневого огляду гіда, вікно підписки на поштову розсилку з даної тематики і координати гіда, що курує розділ.

У нижній частині сторінки зібрані корисні посилання, скориставшись якими можна додати сайт, запропонувавши помістити його саме в цю підкатегорію каталогу. Тут же можна встановити лічильник для обліку числа відвідувачів на своїх сторінках і отримання найрізноманітнішої статистичної інформації; познайомитися з пропозиціями з рекламних заходів і вакансіями в List.ru

МЕТА

http //www. meta-ukraine.com

Українська пошукова система МЕТА призначена для пошуку за українських серверах, а також серверах з українською тематикою у всьому світі .

Офіційне відкриття серверу відбулося в листопаді 1998 року. Із моменту свого створення МЕТА підтримується командою харківських розробників.

Пошукова система МЕТА працює за технологією, аналогічною до реалізованої в одній з провідних російськомовних пошукових систем Internet- Апорт. Таким чином, МЕТА успадкувала всю потужність і ряд унікальних властивостей Апорту, таких як реконструкція тексту, точне підсвічування ключових слів запиту в реферативному описі знайденого ресурсу, підтримка морфології російських і англійських мов тощо.

МЕТА є повнотекстовою пошуковою машиною словарного типу, підтримує розвинену мову запитів, пошук за окремих полями документів, обмеження за датою. Передбачені різні форми видачі результатів, об’єднання копій документа, що знаходяться на різних серверах, реконструкція тексту і інші сервісно-пошукові функції. Область пошуку можна додатково обмежити однією або декількома регіональними підрубриками (Київ, Харків, Зарубіжжя).

Загальна кількість результатів пошуку показується на початку сторінки. Відповіді, самі відповідні запиту, показуються вверху списку, з вказівкою кількості пропозицій, відповідних запиту. Крім посилання на знайдений документ з вказівкою дати створення і кодування документа, видається назва сторінки, дата створення файлу і кодування документа. У тому випадку, якщо один і той же документ розташований на різних серверах, або представлений в різних кодуваннях, буде показана тільки одна відповідь із декількома посиланнями.

Важлива унікальна особливість Мети - підтримка пошуку з урахуванням морфології української мови.

Основне призначення системи - бути надійним і обізнаним провідником за українських ресурсах Internet. У даний час при розвитку додаткових інформаційно-пошукових сервісних служб, перш за все, враховується попит на інформацію українських користувачів Internet. З урахуванням нових запитів були введені розділи Довідка, Євро-пошук. Фінанси і ряд інших інформаційних розділів.