Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
sit.doc
Скачиваний:
105
Добавлен:
16.05.2015
Размер:
1.7 Mб
Скачать

Список літератури

  1. Berners-Lee T., Hendler J., Lassila O. The Semantic Web. - http://www.scientificamerican.com/print_version.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21,

  1. OWL Web Ontology Language 1.0 Reference, W3C Working Draft 29 July 2002. - http://www.w3.org/TR/2002/WD-owl-ref-20020729/.

  2. RDF Tutorial, W3C. - http://www.w3.org/TR/rdf-tuturial.

  3. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. - Спб.: Питер, 2001.

  4. Глибовець М.М., Олецький О.В. Штучний інтелект. - К.: "КМ Академія", 2002.

  5. Плескач В.Л., Рогушина Ю.В., Кустова Н.П. Інформаційні технології та системи. - К.: "Книга", 2004.

Контрольні питання

  1. Які засоби використовують для подання гіпертексту?

  1. У чому полягають відмінності між мовами HTML та XML?

  2. Яка інформація називається мультимедійною?

  3. Які формати використовуються для подання мультимедійних даних?

  4. Які формати використовуються для подання графічної інформації в Інтернет?

  5. Що таке метадані про документ?

  6. Для чого використовують стандарт RDF?

  7. Що таке онтологія?

  8. Які мови використовують для подання онтологічних систем?

Розділ 10. Пошук інформації в Інтернет. Засоби інтелектуалізації пошуку інформації

За останні роки Інтернет перетворився в один з основних засобів публікації інформації. Всесвітня павутина Інтернет розповсюджується стрімкими темпами та вплітається буквально в усі сфери життя. Вважається, що кожні 6-12 місяців розмір Інтернет подвоюється. Порівняно з БД, що використовуються у традиційних системах здобуття інформації, Web набагато різноманітніше як за вмістом, так і за структурою. Це розподілене середовище, що динамічно змінюється, а подані у ньому інформаційні ресурси вкрай різнорідні. Засобам обробки даних в мережі все складніше та складніше справлятись з масами інформації, вже існуючої і що додається в мережу щодня. Крім того, дані в Інтернет організовані вкрай стихійно і не систематично. Окрім серверів, що підтримуються компаніями, фірмами, університетами і іншими офіційними організаціями, на яких, в основному, представлена тематична інформація що більш-менш структурована, Web "населяють" домашні сторінки, що з'єднають в собі все, що завгодно.Ефективний пошук інформації в Інтернет у міру збільшення обсягу і розосередження джерел стає усе складнішим. При цьому критичним є не стільки час пошуку, скільки добір релевантної інформації. Це призводить до необхідності розробки нових технологій інформаційного пошуку.

За даними дослідження, проведеного фахівцями Міжнародної фінансової корпорації (МФК) у березні 2003 р., більш 80% українських компаній, де є хоча б один комп'ютер, вважають Інтернет корисним джерелом отримання бізнес-інформації. При цьому 56% компаній, підключених до Інтернет, користаються ними щодня, а 31% - кілька разів на тиждень.

Пошук потрібної інформації в Інтернет - суттєва проблема в зв'язку з:

  • величезним обсягом потенційно доступної інформації

  • розмаїтістю форматів представлення інформації

  • невідповідністю між виразною можливістю і доступністю засобів подання запитів

Процес інформаційного пошуку являє собою зіставлення інформаційного запиту користувача з інформаційними ресурсами, що доступні системі, яка здійснює пошук. Ефективне виконання пошуку залежить як від засобів подання запиту, так і від засобів подання знань про інформаційні ресурси, а також від способів їхнього співставлення.

Основні критерії оцінки ефективності інформаційно-пошукових систем (ІПС) - це швидкість, точність і повнота відповідей. Точність визначається тим, яка частина інформації, що надається у відповідь на запит, є релевантною, тобто стосується цього запиту. Повнота характеризується співвідношенням між усією релевантною інформацією, що є в базі, і тією її частиною, що включена у відповідь. Крім цього, при оцінці пошукових систем враховується, з якими типами даних може працювати та або інша система, у якій формі представляються результати пошуку і який рівень підготовки користувачів необхідний для роботи в цій системі.

Найбільше розвинені можливості пошуку надають сьогодні системи пошуку за ключовими словами. Сучасні механізми пошуку в Web аналогічні за своєю дією традиційним системам здобуття інформації. Вони поділяються на дві групи - пошукові машини та каталоги.

Пошукові машини звичайно містять три компоненти:

  • програму індексації інформаційних ресурсів (робота), що автоматично переглядає різні сайти й індексує їх,

  • базу даних (індекс),

  • програму сканування, що дозволяє за запитом знайти відповідні інформаційні ресурси.

При цьому кожна пошукова система намагається самостійно проіндексувати всю мережу. Чим більше вузлів покриває пошукова машина, тим вище частка помилкових посилань, що у деяких випадках може досягати навіть 10%. Деякі пошукові служби відносяться до повнотекстових - вони шукають ключові слова не тільки в заголовку (і в метатегах), але й у тілі сторінки. Інші обмежуються пошуком тільки в заголовках і метатегах. Те ж саме відноситься і до глибини дослідження вузлів: одні обробляють тільки заголовну сторінку, інші - усі посилання до певного рівня, треті - Web-вузол цілком. Крім того, деякі служби мають спеціалізацію (явну або неявну) і приділяють більше уваги вузлам, присвяченим певної темі. До пошукових машин відносяться AltaVista, HotBot, Яndex і Rambler.

У каталогах замість індексів обробляються описи ресурсів, що створюються не автоматично, а людьми-експертами. Нові вузли вивчаються експертами і відносяться ними до відповідних тематичних категорій. Багато каталогів також забезпечують пошук у своїй базі даних. Перевагою каталогів є більш висока якість опису інформаційних ресурсів, а недоліками – менша кількість доступних інформаційних ресурсів і неможливість автоматичного відновлення інформації про них. Найбільше відомими прикладами подібних каталогів є Yahoo! і російськомовний “Ау! “.

Зараз широко розповсюджені як локальні пошукові машини і каталоги, що забезпечують пошук у рамках одного сайту, так і глобальні, що забезпечують пошук у всьому Web.

Суттєвим недоліком таких систем є низька точність інформації, що видається. Машини пошуку та здобуття інформації, такі як "Yahoo!", "Lycos", "Infoseek", використовують механізм пошуку по ключовим словам і не враховують контекст, в якому існує інформація. Ось чому результатом роботи таких систем можуть бути сотні тисяч посилань. Сучасні версії пошукових систем ("Metacrawler", "WebSeek" і. т.п.) адресують запит користувача відразу до багатьох машин пошуку, і складають індексні мета-каталоги і бази даних. Але вони залишаються в рамках пошуку, основаного на ключових словах, то отримані індекси зв'язують інформацію з термінами, враховуючи тільки актуальний для даного запиту лексичний або синтаксичний контекст. Аналогічні претензії можна адресувати і до тематичних каталогів, що складені вручну. Крім того, що для їхнього створення і супроводу необхідно занадто багато часу, існує дисонанс між критеріями класифікації понять автора і користувачів.

Розвиток можливостей цих систем, спрямований на підвищення точності інформації, призводить до ускладнення мови запитів цих систем. Крім того, у кожній із систем є свій синтаксис мови запитів. Тому більшість користувачів просто ігнорують розвинені можливості систем пошуку і використовують тільки базові можливості, що призводять до низької якості результатів пошуку).

Це призводить до того, що користувач змушений самостійно опрацьовувати (прочитувати й відсортовувати) велику кількість документів (причому більша частина яких йому не потрібна). Для постійної роботи користувача (як в Інтернет, так і на окремому комп'ютері або в локальній мережі) характерна довгострокова зацікавленість користувача в інформації з однієї або декількох вузьким областей. Тому доцільно надати користувачу персонального інформаційного агента, що, з одного боку, дозволило б автоматизувати задачу збору і накопичення тематичної інформації, з огляду на як специфіку цих областей (і формуючи відповідні бази знань), так і преваги конкретного користувача, а з іншого - підвищило б релевантність пошуку інформації в цих областях.

Механізми пошуку в Web, як правило, розглядають запити на пошук ізольовано один від одного. Результати, отримані у відповідь на даний запит, не залежать від користувача або контексту, у якому користувач створював запит. Часто вони пропонують застарілу інформацію, індексують лише частину доступної в Web інформації, не індексують документи, для доступу до яких необхідна аутентифікація, і тому багато документів залишаються за рамками пошуку. Крім того, різні сайти індексуються неоднаково.

Нові технології інформаційного пошуку враховують реакцію користувача на результати, отримані ними під час попередніх звертань до механізму пошуку, передбачають обробку запитів природною мовою, явне або автоматизоване додавання контекстної інформації тощо. Однак очевидно, що універсального рішення, однаково зручного для всіх категорій користувачів, просто не існує.

Запит користувача являє собою опис того інформаційного ресурсу, доступ до якого хоче отримати користувач. Він може містити ключові слова, пов'язані логічними операторами; документ-зразок; тип документа (текстовий документ, зображення, відеоролик тощо); тему документа за класифікатором; списки рекомендованих або заборонених інформаційних джерел; обмеження часу або обсягу пошуку; параметри документа - обсяг, час створення, мова, автори, інші специфічні параметри даного типу документа, тип запиту - постійний або одноразовий.

Традиційні підходи до організації пошуку інформації можна розділити на три групи: методи індексного пошуку, статистичні методи і методи, засновані на базах знань.

Індексний пошук застосовується головним чином для роботи зі структурованими базами даних. У таких методах слова інтерпретуються як послідовності закодованих символів. Використовуючи формальний синтаксис мови запитів, система вибирає точну відповідність для окремих слів або словосполучень, що пов'язані логічними операторами. Застосування штучної мови запитів призводить до необхідності навчання користувачів. Такі системи не враховують різні форми і значення слів; користувачу непросто угадати точні слова і фрази, що були використані авторами в документах. Крім того, вони не можуть також впорядковувати документи за ступенем відповідності запиту, тому користувач змушений читати кожен документ, щоб визначити, наскільки він відповідає запиту.

Статистичні методи ґрунтуються на розрахунку різних частотних характеристик: частоти входження слова в документ, зваженої частоти входження і частоти спільного входження кількох слів. При цьому передбачається, що чим частіше зустрічається те або інше слово запиту в документі, тим у більшому ступені даний документ відповідає наданому запиту. Основною одиницею інформації, якою оперують статистичні методи, є окреме слово, однак зв'язки між словами розглядаються винятково з математичної, а не з лінгвістичної точки зору. На відміну від методів бінарного пошуку, статистичні методи не вимагають застосування формальної мови запитів. Вони дозволяють проводити ранжирування документів за ступенем відповідності запиту, що істотно підвищує ефективність роботи з пошуковими системами. Однак такі методи не завжди дозволяють одержати бажані точність і повноту відповідей, оскільки важливість того або іншого терміна не завжди безпосередньо зв'язана з частотою його використання в документі.

Системи, що базуються на базі знань, використовують для пошуку інформації певні зовнішні знання (метазнання). Вони використовують концептуальні відносини, що не застосовуються при статистичному пошуку.

Одним з досить розповсюджених способів подання знань є використання синонімів, що дозволяє при відповіді на запит враховувати не тільки ті терміни, що безпосередньо зазначені в запиті, але і інші слова, близькі до них за значеннями. Інший підхід до систем, заснованим на базі знань, використовує ієрархію термінів і понять, яка створюється самими користувачами. Третій підхід базується на лінгвістичних правилах. Розроблювач створює систему лінгвістичних правил, що використовуються для аналізу або граматичного розбору текстової бази . Цей метод аналізу визначає ключові слова і поняття, що поєднуються в БЗ, яка відображає зміст конкретної бази даних. Потім база знань використовується для пошуку і ранжирування груп документів. Процес граматичного розбору і створення бази знань має проводитися для кожної ПрО. І нарешті, ще один підхід - використання посилань на інші документи, у тому числі на звичайні словників і словники термінів. Значення слів, найбільш придатні для даного пошуку, можуть бути обрані самим користувачем з метою підвищення точності цього пошуку. Цей підхід поєднує статистичний пошук і пошук на основі бази знань. При цьому використовуються зміст слів для визначення і класифікації відносин, які статистичний пошук не відслідковує.

Переважна більшість ІПС, які широко використовуються, є не спеціалізованими, а універсальними. Звичайно вони не враховують інформацію про конкретного користувача, його специфічні інформаційні інтереси, передісторію його звертань з запитами до цієї ІПС. Спеціалізовані ж ІПС мають досить обмежену інформаційну базу і, хоч і дають звичайно високо релевантні результати пошуку у певній ПрО, не можуть гарантувати виявлення усіх (або хоча б значної частини) навіть тих інформаційних джерел, що відносяться до області їхньої спеціалізації і можуть бути виявлені універсальними ІПС (правда, серед великої кількості слабко релевантних посилань).

Індексування за ключовими словами - це найбільш проста й економічна у відношенні дискового простору технологія. Суть її полягає в тім, що для кожного документа, що індексується, заповнюються відповідні поля в індексному файлі. Заповнення здійснюється вручну або автоматизовано. Ця технологія дозволяє індексувати як текстові документи (у ручному й автоматичному режимах), так і зображення (у ручному режимі). У найпростішому випадку ключовими словами служать назва та ім'я автора документа. У більш складних ситуаціях необхідно використовувати незалежного експерта для читання документа і виділення ключових слів.

Серйозні обмеження при використанні цих систем пов'язані з наступними обставинами:

  • Визначення ключових слів - досить суб'єктивний процес; навіть при участі незалежного експерта важко уникнути однобічності у виборі ключових слів.

  • Визначення ключових слів - досить дорога процедура через неможливість автоматичної індексації і низкою продуктивності при визначенні ключових слів вручну.

  • Передбачається, що користувачі будуть здійснювати пошук інформації передбачуваним способом, використовуючи визначені ключові слова.

  • Пошук за ключовими словами - це чіткий пошук, тобто користувач має точно знати, що саме він шукає. Якщо зроблена помилка у написанні ключового слова в запиті для пошуку, система ніколи не знайде потрібну інформацію.

  • Ключові слова можуть мінятися з часом (поняття, що були "ключовими" учора, зовсім не обов'язково будуть настільки ж важливі через рік).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]