
Міністерство освіти та науки України
Національний університет “ Львівська політехніка”
Кафедра ІСМ
Реферат
З дисципліни „Інтелектуальні технології аналітико – синтетичного опрацювання даних”
На тему: «Інформаційно-пошукові мови, основні характеристики, структура та види»
Виконала
студентка групи КН-45
Баутіста-Перепелиця
Ірина Анхеліка
Прийняла
доц. Кунанець Н.Е.
Львів-2013
План
Вступ
Загальна характеристика інформаційно-пошукової мови
Види та структура інформаційно-пошукових мов
Призначення інформаційно-пошукової мови
Висновки
Список використаної літератури
Вступ
Інформатизація сучасного суспільства і комп’ютеризація різних галузей діяльності вважаються сьогодні стратегічними напрямами науково-технічного прогресу, який є рушійною силою соціального та економічного розвитку суспільства. Поява внаслідок цього інформатики як загальної науки про методи і засоби одержання, збереження, передачі, пошуку, опрацювання інформації, визначення її видів, властивостей і структури породило низку похідних понять. До них можна віднести такі як: “інформаційні технології”, “інформаційні ресурси”, “інформаційні процеси”, “інформаційно-пошукові системи”, “інформаційне забезпечення”, “лінгвістичне забезпечення”, “інформаційно-пошукові мови” тощо. Сьогодні, розглядаючи питання інформатизації, основну увагу найчастіше, приділяють технологічному боку, проблеми ж інформаційного, лінгвістичного забезпечення є малодослідженими і потребують розгляду з точки зору стандартизації бібліографічних записів, наукового теоретичного та практичного обґрунтування. Адже ні широкі можливості обчислювальної техніки, ні новітні програмні засоби не здатні забезпечити бажаного ефекту, якщо не вирішено проблему семантичної обробки інформації. Реалізація цього найважливішого процесу не можлива без надійного лінгвістичного забезпечення (ЛЗ), яке включає комплекс інформаційно-пошукових мов (ІПМ), засоби їх розробки та ведення, методи індексування. Питання лінгвістичного забезпечення є, мабуть, найбільш проблемними та трудомісткими аспектами роботи з електронними каталогами.
Бібліотечний інформаційний потенціал — це не лише представлений у документах результат інтелектуальної праці людини - бібліотека обробляє й організовує ці документи, додаючи додаткової цінності фонду в цілому, і роблячи її набагато більшою суми його складових. Бібліотечні фонди являють собою документальну інформаційно-пошукову систему (ІПС) первинного (елементарно-базисного) рівня, а каталоги – більш складну ІПС другого рівня, яка містить бібліографічну інформацію про фонди. Споконвіку бібліографічна характеристика документів, представлених у фондах бібліотек, здійснювалась за допомогою бібліотечних каталогів. Саме так ставали легко доступними для огляду користувачів документні багатства бібліотек, на їх основі створювалися грандіозні бібліотечно-бібліографічні системи, формувалася наукова теорія каталогознавства. Але без цих ІПС (традиційних або автоматизованих) ефективність бібліотечного фонду знижується, тому що саме каталоги ідентифікують документи, багатоаспектно розкривають їх зміст. І створення таких систем – завдання набагато складніше, ніж просто забезпечення інформацією.
Визначення і загальна характеристика інформаційно-пошукової мови
Інформаці́йно-пошукова мова (ІПМ) — штучна мова, призначена для вираження семантичних аспектів інформаційних джерел (частіше всього, документів) і запитів у формі, придатній для здійснення пошуку інформації. За своїми знаковими системами та правилами синтаксису ІПМ різняться [1].
Процес пошуку інформації передбачає взаємодію у режимі «запит — відповідь» користувача та інформаційно-пошукової системи через посередництво заздалегідь узгодженої ІПМ. Таким чином, передумовами для проведення інформаційного пошуку є:
а) попереднє індексування інформаційного масиву, тобто створення пошукового образу кожного інформаційного джерела в масиві;
б) переклад інформаційного запиту користувача визначеною ІПМ.
Формалізація лексики і створення різних ІПМ викликано необхідністю усунення "надмірності" і "недостатності" природної мови для цілей інформаційного пошуку. Як і в природних мовах,в інформаційно-пошукових мовах використовується лексика, тобто свій словниковий склад. Лексичні одиниці (слова) ІПМ можуть бути простими (елементарними) або складними, тобто ІПМ може мати або не мати свої кошти словотворення. Основними елементами ІПМ є алфавіт, лексика і граматика. Алфавіт ІПМ - система знаків, що використовуються для запису слів і виразів ІПМ [2].
Види та структура інформаційно-пошукових мов
По області або по сфері застосування інформаційно-пошукових мов можна виділити:
Комунікативні (загальносистемні) ІПМ - призначені для забезпечення взаємодії між різними (інформаційними, бібліотечними та ін.) системами (у тому числі розподіленими по державної, відомчої або територіальної приналежності);
Локальні (внутрішні) ІПМ - призначені для використання в рамках окремої системи;
Зовнішні ІПМ - використовувані в інших системах і призначені для взаємодії тільки з ними .
Розрізняють мови опису (декларативні мови), які в свою чергу поділяються на мови предкординатні (класифікаційні) і посткординатні(дескрипторні), а також процедурні мови - мови запитів і маніпулювання даними [4].
Інформаційно-пошукові мови поділяються на два основні типи:
ІПМ класифікаційного типу
До мов цього типу відносяться ієрархічні, алфавітно-предметні та фасетні класифікації. Наприклад, ББК та УДК.
ІПМ дескрипторного типу
Класифікаційні інформаційно-пошукові мови
Інформаційно-пошукові каталоги, засновані на класифікації відомостей за певною предметної області, були першими системами інформаційного пошуку документів. Початкові підходи до класифікації тематики документів грунтувалися на формуванні списку предметних аналогів, розташованих в алфавітному порядку. Кожна предметна рубрика отримувала певний цифровий або буквенно-цифровий код. Зміст документа індексувалися перерахуванням кодів тих рубрик, які відображали теми документа. Це перечислювальна класифікація. Особливістю систем перечислювальної класифікації є можливість індексування документів будь-якою кількістю рубрик, що відображають зміст документ. Для здійснення пошуку необхідних документів за класифікатором визначаються коди, що цікавлять користувача рубрик і далі відбираються з сховища ті документи, які проіндексовані відповідними кодами. Відсутність систематизованих зв'язків і відносин між предметними рубриками є основним недоліком перечислювальної класифікації. При систематизованій класифікації список предметних рубриках будується як ієрархічна структура, у вигляді перевернутого дерева. Вся предметна область розбивається на ряд взаємовиключних (не перетинаються) рубрик. Кожна рубрика, у свою чергу, може включати кілька підрубрик. Таким чином, при систематизованій класифікації враховуються вже деякі семантичні основи предметної області, що виражаються в родовидовых відносинах основних категорій, понять і класів.
Зміст документа індексується кодами відповідних рубрик, однак при цьому відпадає необхідність в вказівці загальніших рубрик, до яких відносяться виділені полрубрики. В результаті індексування і пошук документів на основі ієрархічної класифікації дозволяють більш адекватно відображати зміст документів і забезпечують більшу точність пошуку.
Перечислювальний і ієрархічний підходи до класифікації використовуються в алфавітному порядку-предметних каталогах бібліотек. Недоліком як перечислювальної, так і ієрархічної класифікації є принципова неможливість заздалегідь перерахувати всі можливі теми документів [5].
Дескрипторні інформаційно-пошукові мови (ДІПМ)
В основі побудови дескрипторних інформаційно-пошукових мов лежить принцип координатного індексування, який передбачає, що основний смисловий зміст документа може бути виражено списком ключових слів. До ключових слів відносяться так звані повнозначні слова -іменник, прикметник, дієслова, прислівники, числівники, займенники. Ключовими словами не можуть бути прийменники, союзи, зв'язки, частинки.
Основними елементами ДІПМ є:
словник лексичних одиниць;
правила застосування ІПМ (граматика), що визначають процедуру перекладу текстів документів і запитів з природної мови на ІПМ;
правила побудови ІПМ.
Словники лексичних одиниць діляться на дві групи:
основні лексичні словники, складові лексику ІПМ;
морфологічні словники, що забезпечують морфологічний аналіз і нормалізацію слів.
Як лексичних одиниць основних словників використовуються ключові слова, словосполучення та дескриптори [6]. ''Дескриптор'' - поняття, що означає групу еквівалентних або близьких за змістом ключових слів. Дескриптор - це ім'я класу синонімів.Дескриптори можуть використовувати код, слово або словосполучення [7]. Розробка дескрипторної мови фактично зводиться до розробки інформаційно-пошукового тезауруса (ІПТ). Тезаурус (від грец. «сховище», «скарбниця») у вузькому сенсі являє собою спеціальний словник-довідник, в якому перераховані ключові слова - дескриптори певної предметної області, вказані їхні синоніми, встановлені способи усуненнясинонімії, омонімії, полісемії, визначені родовидові і асоціативні зв дескрипторів. Найважливішими парадигматическими відносинами ІПТ є:
супідрядність;
рід-вид;
частина-ціле;
причина-наслідок;
функціональне схожість.
Узагальнена структура ІПТ включає як мінімум три складових: словарну частину, семантичну карту, керівництво по використанню. Словникова частина - алфавітний список дескрипторів з їх словниковими статтями. Семантична мапа - система тематичних класів дескрипторів, представлена у вигляді графічної схеми або таблиці. Керівництво по використанню ІПТ містить правила переказу ключових слів і словосполучень на ІПМ, правила лексикографічного контролю і редагування пошукового образу документа і пошукового образу запиту, а також правила ведення ІПТ. Відзнакою інформаційно-пошукових скарбниць від інформаційно-пошукових каталогів на основі предметної ієрархічної рубрикації є те, що в тезаурусах, крім класифікаційної схеми, присутні самі ключові слова та дескриптори, що об'єднані під назвою класів, рубрик і т. д. В каталогах присутні лише позначення (назви) класів.
Головна ідея інформаційно-пошукових скарбниць полягає в підвищенні ефективності індексування документів в рамках дескриптивного підходу. Однак у процесі індексування враховуються семантичні зв'язки між дескрипторами, що, в кінцевому рахунку, забезпечує більш адекватний змісту документа пошуковий образ і підвищує ефективність пошуку документів.
В даний час відбувається розширення сфер застосування автоматичних скарбниць. При цьому тезауруси виступають складовою частиною сучасних систем підготовки текстів, здійснюючи лінгвістичну підтримку процесу підготовки і обробки текстів природною мовою [10]. Серед найперспективніших напрямків розвитку автоматичних скарбниць можна вказати наступні:
Отримання довідки до речі. Вказавши слово, як ключ для запиту, користувач у відповідь отримує відповідний фрагмент словника, що містить лінгвістичну інформацію про цьому слові. Наприклад, автоматичний тезаурус отримує від користувача деякий іменник і у відповідь видає сукупність стійко поєднуються з ним дієслів або всі найбільш часто супроводжують його визначення. При цьому автоматично виконується процедура нормалізації вхідного слова (тобто приведення іменника до іменного падежу).
Контекстні заміни на вимогу користувачів. В даному випадку тезаурус не тільки підбирає замість одного словосполучення інше, яке користувач визнав відповіднішим контексту за смисловим або стилістичним міркувань, але й автоматично переоформляє параметри слів (наприклад, опис прикметника) відповідно до контексту. Це означає, що синтаксичні операції, що тезаурусом, істотно ускладнюються.
Автоматична оцінка стилю. Якщо слова і словосполучення в тезаурусі забезпечити стилістичними позначками, то він може використовуватися для стилістичної оцінки тексту з виділенням слів і словосполучень, що випадають, із загального стилю документа [8].