Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
mini-WPORKA.docx
Скачиваний:
3
Добавлен:
04.09.2019
Размер:
61.73 Кб
Скачать

20. Інформаційний пошук

При згадці області інформаційного пошуку - Information Retrieval (IR) - зазвичай мають на увазі комплексну діяльність по збору, організації, пошуку, вилучення та поширенню інформації за допомогою комп'ютерних технологій. Теоретичними та інженерними аспектами реалізації цих технологій займаються відповідні наукові та інженерні дисципліни.

Прикладами завдань в галузі інформаційного пошуку є:

-власне інформаційний пошук документів за запитом користувача;

-автоматична рубрикація документів по заздалегідь заданому рубрикатору;

-автоматична кластеризація документів - розбиття на кластери близьких за змістом документів;

-розробка питально-відповідних систем - пошук точного фрагмента тексту, що відповідає на питання користувача, а не цілого документа;

-автоматичне складання анотації документа і багато інших.

Пошукова машина (пошукач) використовує запит як вхідні дані для отримання того чи іншого результату - вибірки з колекції документів, які відповідають запиту (пошукова машина знаходить документи, релевантні запиту). Тут виникає друга проблема: користувач оцінює результат пошуку відповідно до своєї інформаційної потребою, а не відповідно до введеним запитом. В ході оцінки він приймає рішення про релевантністю (мірою відповідності) результату пошуку і його (користувача) інформаційної потреби. Таку оцінку може зробити тільки сам користувач. Відповідне судження про релевантності та саму релевантність називають істинними. Релевантність, обчислюється пошукачем на основі його внутрішньої логіки, може не відповідати істинної релевантності.

Наприклад, користувача, який написав запит "школи бальних танців Росії", можуть цікавити як різні школи бальних танців, розташовані на території Росії, так і школи в широкому сенсі цього слова (наприклад, "школа Нурієва"). Користувач може мати мету вступити в яку-небудь школу, дізнатися, які педагоги ведуть заняття або просто знайти партнера з танців. Всі ці наміри приховані від пошукової машини і не можуть бути використані для обчислення релевантності.

З точки зору користувача, робота пошукової машини починається після відправлення запиту. Фактично, цьому передує важливий етап індексування колекції документів. Він полягає у створенні індексних таблиць, значно прискорюють обробку запитів. Ідея індексування масивів даних для прискорення доступу застосовується повсюдно. Прикладом індексу може служити алфавітний або предметний покажчик наприкінці книги, зміст. Навіть закладки, зроблені в певних місцях книги, є свого роду індексом. Індекси широко застосовуються для прискорення доступу в СУБД. Особливість індексування в IR полягає в тому, що індекс, необхідний для повнотекстового пошуку в електронних колекціях, є найбільш повним. Він повинен містити всі терміни, які з'являються в документах колекції.Індекс, який містить всі терміни, що з'являються в документах колекції, називається зворотним (інвертованим) файлом. Часто замість всіляких форм кожного слова в інвертований файл включають тільки токени - частини слів, що залишаються після відсікання закінчень. Наприклад, словам "столи", "столу", "столом" відповідає єдиний токен "стіл". До числа токенів також відносять числа, буквено-числові коди, абревіатури і т.п.

Для кожного токена на безлічі документів обчислюються наступні характеристики:

-число документів, в яких з'явився цей токен (ця характеристика говорить про поширеність токена в колекції);

-частота зустрічальності токена в колекції (ця характеристика показує, наскільки даний токен "незвичайний" у порівнянні з іншими).