Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ІКТ_КЛ_Розділи 1 і 2.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.57 Mб
Скачать

2.Індексування інформації та механізм пошуку

Під формалізацією тематичного змісту правової інформації слід розуміти відповідну програмному забезпеченню АІПС певну форму запису її теми для наступного введення в пам'ять ЕОМ. Одним з виглядів формалізації правового документа є індексування.

Під індексуванням правової інформації слід розуміти процес відбору з тексту термінів (ключових слів), що, на думку фахівця, відбивають основний зміст його теми.

Процес індексування не обмежується цим. Перш ніж ввести в ЕОМ ключові (інформативні) слова тексту, їх необхідно перетворити в форму інформаційно-пошукової мови.

В діючій АІПС слід розрізняти два вигляди індексування: документа і інформаційного запиту абонента.

Під документом в даному випадку розуміється текст структурної одиниці (стаття, пункту і т. ін.) нормативного акту.

Інформаційний запит являє собою питання абонента про законодавство на певну правову тематику в формі консультації.

Сукупність ключових слів з тексту документа, переведених в форму інформаційно-пошукової мови, складає його пошуковий образ, що вводиться в ЕОМ для формування її інформаційної бази.

Сукупність ключових слів з тексту запиту абонента, перетворених в форму інформаційно-пошукової мови, складає його пошукове розпорядження, що вводиться в ЕОМ для проведення і реалізації інформаційного пошуку.

Рисунок 5.1 - Типова схема АІПС

Інформаційний тематичний пошук в АІПС є пословним (побуквенним), тобто заснованим на правилі порівняння символів заіндексованого документа з символами заиндексованої теми запиту. Якщо та або інша комбінація символів, що складають пошуковий припис запиту, знаходить в пам'яті ЕОМ точно таку ж схему знаків, що формують пошуковий образ документа, то потрібна інформація знайдена. Іншими словами, пословний (побуквенний) пошук означає, що для його реалізації лексичні елементи (терміни або словосполучення), що складають пошукове розпорядження запиту, повинні бути сформульовані точно в такому же вигляді, як в пошукових образах документів на відповідну тему, раніше введених в ЕОМ.

При такій процедурі важливе значення має виділення в документі тих термінів, смислове значення яких відбиває його основний зміст, і їхнє використання при інформаційному пошуку.

Під релевантністю документа, виданого ЕОМ в результаті автоматизованого інформаційного пошуку за запитом абонента, розуміється відповідність теми документа тематичному змісту запиту. Оцінку релевантності документів запиту в інформатиці називають критерієм видачі, або критерієм смислової відповідності.

Збереженню ідеї формування інформаційної бази ЕОМ з допомогою ключових слів з тексту документа і застосування пословного пошуку інформації служить використання інформаційно-пошукової мови. Вона являє собою таку форму запису того або іншого терміну, в яку необхідно перетворювати кожне ключове слово з тексту документа або запиту абонента для наступного їхнього введення в ЕОМ.

Слова або словосполучення в формі інформаційно-пошукової мови містяться в тезаурусі (інформаційно-пошуковому словникові).

Тезаурус містить:

1) дескриптори — слова та словосполучення, які однозначно позначають поняття з теми тезаурусу;

2) недескриптори — слова та словосполучення, які у природній мові позначають ті самі поняття, що і дескриптори, або еквівалентні поняття;

3) семантичні зв'язки (зв'язки на основі значень) між дескрипторами і не-дескрипторами, а також між самими дескрипторами.

Тільки дескриптори можуть використовуватись при індексуванні та формулюванні запитів, при цьому недескриптори допомагають користувачам вибрати дескриптор. Якщо встановлено відповідність між ідентичними поняттями в різних мовах, користувач багатомовного тезауруса може формулювати запити рідною мовою і шукати документи незалежно від мови, якою вони були індексовані.

Прикладом спеціалізованого тезауруса є багатомовний політематичний інформаційно-пошуковий тезаурус EUROVOC, визнаний як міжнародний термінологічний стандарт. Він реалізований відповідно до стандартів ISO 2788-1986 «Guidelines for the establishment and development of monolingual thesauri» («Керівництво з введення і розробки одномовних тезаурусів») та ISO 5964-1985 «Guidelines for the establishment and development of multilingual thesauri» («Керівництво з введення і розробки багатомовних тезаурусів»).

EUROVOC використовується для індексування та пошуку даних в ІПС офіційних документів органів, установ, інститутів і деяких держав — членів ЄС. Цей тезаурус охоплює всі теми, важливі для діяльності європейських інституцій: політика, міжнародні відносини, європейські співтовариства, законодавство, економіка, торгівля, фінанси, соціальні питання, освіта і комунікації, наука, бізнес і конкуренція, зайнятість та умови праці, транспорт, навколишнє середовище, сільське господарство, лісництво і рибна ловля, виробництво, технології та дослідження, енергія, промисловість, географія, міжнародні організації. Деякі теми у EUROVOC розроблені детальніше порівняно з іншими, оскільки вони важливіші для роботи ЄС. Наприклад, тезаурус містить назви областей кожної держави — члена ЄС, а назви регіонів інших країн відсутні.

EUROVOC реалізований офіційними мовами Європейського Союзу. Усі мови реалізації мають однаковий статус - кожен дескриптор в одній мові обов'язково має відповідний дескриптор в іншій мові. Однак, між недескрипторами у різних мовах не існує еквівалентності, оскільки багатство мов різниться для різних тем.

Таким чином, щоб заіндексувати тексти правового документа і запиту, слід відібрані з них ключові слова перевести в форму інформаційно-пошукової мови, тобто скласти пошуковий образ документа і пошукове розпорядження запиту. Як вже відзначалося, пошуковий образ документу вводиться в ЕОМ для формування її інформаційної бази, а пошукове розпорядження запиту — з метою реалізації пошуку інформації.

Таким чином, АІПС складається з чотирьох основних елементів:

  • документального і пошукового масиву (тобто сукупності документів і їхніх пошукових образів);

  • логіко-семантичного апарату (тобто інформаційно-пошукової мови, правил індексування і критерію видачі інформації);

  • електронно-обчислювальних, технічних, математичних і програмних засобів;

  • людей, що експлуатують систему.

Під автоматизованим інформаційним пошуком слід розуміти процедуру витягу необхідних абоненту відомостей з документального масиву, що зберігається в ЕОМ, за допомогою використання для цієї мети логіко-семантичних, електронно-обчислювальних, технічних, програмних, математичних засобів спілкування людини з комп'ютером.

Інформаційний пошук в самому загальному вигляді можна поділити на види [2]:

А) пошук за основними реквізитами нормативного акту (назвою, номером, видом акту, органом, прийнявшим акт, датою прийняття акту); використання цього виду пошуку не викликає практичних труднощів, коли абоненту відомі один або декілька реквізитів правового документа, що цікавить його. Якщо же абонент знає назву, або номер, або дату прийняття акту, то для успішного здійснення інформаційного пошуку достатньо і одного з перерахованих реквізитів;

Б) тематичний пошук. В більшості випадків абонент не володіє жодними відомостями про адреси потрібної йому інформації. Абоненту необхідні документи, регулюючі те або інше питання, те або інше правовідношення. При цьому йому невідомо ані кількість прийнятих по відповідному питанню нормативних актів, ані їхні номери, ані назви і т. ін. В таких ситуаціях проводиться пошук інформації за її тематичним змістом.

В) пошук за класифікатором. Класифікатори можуть бути створені за різними ознаками класифікації, наприклад, за тематикою, за видавниками, за роками видання документів, за їх типами.