Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЕК_№3.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
3.49 Mб
Скачать

2. 9. Індексування документів і запитів: методи індексування документів; методи індексування запитів; оцінка якості індексування.

Індексування — присвоєння документу набору ключових слів або кодів, які слугують вказівником змісту документа і використовуються для його пошуку. Відомі два способи індексування:

1) вільне (коли безпосередньо із змісту документа виокремлюють ключові слова без врахування всіх видозмін їхніх форм і відношень між ними)

2) контрольоване (коли в пошуковий образ документа включаються лише ті слова, які зафіксовано в словнику ключових слів, в якому вказано їхні синонімічні, родо-видові та асоціативні відношення).

2. 10. Стратегії пошуку. Критерії видачі.

Стратегії інформаційного пошуку визначають ступінь подібності документів, що розглядаються, до пошукового запиту. Ступінь подібності визначається згідно робочої гіпотези: чим частіше пошуковий термін зустрічається в документі, тим більше «відповідним» є цей документ до пошукового запиту.

Стратегії інформаційного пошуку розробляються не тільки для визначення відповідності, але і для вирішення проблем, які пов'язані з неоднозначністю мови - один і той самий термін може позначати різні концепти (ключ в механіці означає зовсім не те, що в шифруванні), один і той же концепт може позначатись різними термінами (обласний центр Львівської області має назву Львів і Місто Лева).

Стратегія інформаційного пошуку це алгоритм, який, переглядаючи набір документів (Д1, ..., Дп), встановлює їх відповідність до пошукового запиту (ПЗ). Оскільки пошуковий термін зустрічається в документах різну кількість раз, можна говорити про різну ступінь відповідності до пошукового запиту. Цей алгоритм обчислює коефіцієнт відповідності (similarity coefficient) (KB) для кожного документу КВ(ПЗ, Ді), де 1 < і < п.

Існують такі стратегії інформаційного пошуку:

  • з використанням векторно-просторового представлення (vector space model); пошук імовірності появи пошукового терміну в документі (probabilistic retrieval);

  • з побудовою мовної моделі для кожного документу (language models); - з побудовою мережі припущень, яка використовується для встановлення відповідності документу до пошукового запиту (inference network);

  • з Булевим індексуванням, коли кожному пошуковому терміну присвоюється своя «вага», що потім враховується при побудові впорядкованих списків документів (Boolean indexing);

  • з використанням не проявленого семантичного індексування (latent semantic indexing); -з побудовою нейромереж (neural networks);

- з використанням продуктивних алгоритмів, коли початковий пошуковий запит «еволюційно» видозмінюється (genetic algorithms);

- з використанням нечітких множин, коли документу ставиться у відповідність нечітка множина (fuzzy set retrieval).

2. 11. Ефективність інформаційного пошуку: показники ефективності інформаційного пошуку; взаємозв'язок показників повноти та точності інформаційного пошуку.

Центральна проблема інформаційного пошуку формулюється просто — допомогти користувачу знайти ту інформацію, в якій він зацікавлений. Однак, описати інформаційні потреби користувача не так просто. Як правило цей опис формулюється як деякий запит, що являє собою набір ключових слів, що характеризують потреби користувача. Класичною задачею інформаційного пошуку є пошук документів, що відповідають запиту, в рамках деякої статичної колекції документів. Критеріями, що характеризують якість інформаційного пошуку, виступають точність і повнота видачі результатів пошуку.

Класичні моделі інформаційного пошуку розглядають документи як множини ключових слів (термів), що представляють ці документи. Як правило, терм — звичайне слово (термін), семантика якого дозволяє описати основний зміст документа.

З точки зору інформаційного пошуку існують два типи класифікацій:

  1. класифікації термів, метою яких є групування термінів у синонімічні класи для підвищення співпадання термінів запиту і документу,

  2. класифікації документів, які здатні покращити результати і оперативність пошуку за рахунок звернення тільки до відповідних частин масиву документів.

За допомогою класифікації першого типу можна згрупувати різноманітні низькочастотні споріднені терміни в спільні класи тезауруса. При цьому терміни, що входять до одного класу, можуть заміняти один одного в процесі пошуку, і при використанні такої класифікації можна очікувати підвищення повноти видачі результатів пошуку. У свою чергу класифікація документів дозволяє звузити область пошуку до найбільш вагомих класів документів і забезпечити тим самим високу точність видачі.

Електронна колекція документів може бути представлена матрицею терм-документ, що містить в собі частоти використання деякого терміну в кожному з документів колекції. Із сукупності документів формується список всіх термінів електронної колекції документів, з якого вилучається другорядні частини мови (сполучники, прийменники та ін.), загальні дієслова, прикметники та прислівники (бути, знати, робити, великий, малий та ін.), займенники, терміни, що використовуються в усіх документах та терміни, що використовуються лише в одному документі. За допомогою одержаного списку може бути побудована матриця терм-документ.

Використання основ слів в якості термів веде за собою підвищення ефективності числових методів. Мовознавці дослідили, що загальновживані слова становлять у наукових текстах до 80% загальної кількості слів. Звичайно, в різних науках — по-різному. Математика, наприклад, їх потребує найменше, інші науки — більше. У будь-якому випадку загальновживані слова дають найбільшу кількість помилок.

Отже, для розбиття колекції електронних документів на класи (кластери) за допомогою IDAMS необхідно сформувати текстовий файл з матрицею терм-документ.

Метою кластеризації документів є автоматичне виділення семантично схожих документів серед заданої фіксованої множини документів. Групи формуються тільки на основі попарної схожості описів документів, і ніякі характеристики цих груп попередньо не задаються. Для підвищення ефективності та швидкості інформаційного пошуку, запит користувача може порівнюватись з центрами побудованих кластерів чи груп.