Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
підручник Менеджмент знань.doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
6 Mб
Скачать

2.3.2. Лінгвістичний аспект

Лінгвістичний (А2) аспект стосується досліджень мовних проблем, тому що мова — це основний засіб спілкування у про­цесі видобування знань. Область розроблення природно-мов­них інтерфейсів і весь спектр проблем, пов'язаних з нею — лексичних, синтаксичних, семантичних, прагматичних тощо, у цій книзі не розглядається.

В інженерії знань можна виділити три шари лінгвістичних проблем (рис. 2.8):

А2 = {S21, S22, S23} — {«загальний код», понятійна струк­тура, слова}.

Рис. 2.8. Лінґвістичний аспект видобування знань.

«Загальний код» (S21)

«Загальний код» вирішує проблему мовних ножиць між професійною термінологією експерта і повсякденною літературною мовою інженера зі знань і включає наступні компоненти:

S21 = {s21_i} = {загальнонаукова термінологія; спеціальні поняття із професійної літератури; елементи побутової мови; неологізми, сформовані за час спільної роботи; професійний жаргон і ін.}.

Деталізація схеми спілкування (див. рис. 2.5) дозволяє зобразити засоби спілкування як два потоки [54], у яких нас цікавлять компоненти V1 і V2 — мови, якими говорять аналітик і експерт (V11, V21 — невербальні компоненти). Розходження мов V1 і V2 обумовлює «мовний бар'єр» або «мовні ножиці» у спілкуванні інженера зі знань і експерта.

Ці дві мови є відображенням «внутрішньої мови» експерта й аналітика, оскільки більшість психологів і лінґвістів вважають, що мова — це основний засіб мислення поряд з іншими знаковими системами «внутрішнього користування» (універсальний семантичний код — УСК, мови «змісту», концептуальні мови та ін.). Мова аналітика V1 складається із трьох компонентів:

  • s21_l — загальнонаукової термінології з її «теоретичним багажем;

  • s21_2 — термінів предметної області, які аналітик почерпнув зі спеціальної літератури в період підготовки;

  • s21_3 — побутової розмовної мови, якою користується аналітик.

Мова експерта V2 включає:

  • s21_l — загальнонаукову термінологію;

  • s21_2 — спеціальну термінологію, прийняту в предметній області;

  • s21_3 — побутову мову;

  • s21_4 — неологізми, створені експертом за час роботи, тобто його про­фесіональний жаргон.

Якщо вважати, що побутова й загальнонаукова мови у двох учасників спілкування приблизно збігаються (хоча реально обсяг другого компонента в експерта істотно більший), то деяка загальна мова або код, який необхідно виробити партнерам для успішної взаємодії, буде складатися з потоків, зображених на рис. 2.9.

Надалі цей загальний код перетвориться в деяку понятійну (семантичну) мережу, що є прообразом поля знань предметної області. Вироблення загального коду починається з виписуванням аналітиком всіх термінів, уживаних експертом, і уточнення їхнього змісту. Фактично це є складання словника предметної області. Потім випливає групування термінів і вибір синонімів (слів, що означають те саме). Розробка загального коду закінчується складанням словника термінів предметної області з попереднім угрупованням їх за змістом, тобто за понятійною близькістю (це вже перший крок структурування знань).

На цьому етапі аналітик повинен уважно віднестись до всіх спеціальних термінів, намагаючись максимально вникнути в суть розв'язуваних проблем і термінологію. Освоєння аналітиком мови предметної області — перший рубіж на підступах до створення адекватної бази знань.

Рис. 2.9. Структура загального коду.

Рис. 2.9 дає уявлення про процес неоднозначності інтер­претації термінів двома фахівцями. У семіотиці, науці про знакові системи, проблема інтерпретації є однією із централь­них. Інтерпретація зв'язує «знак» і «означуваний предмет». Тільки в інтерпретації знак одержує зміст.

Увага до лінгвістичного аспекту проблеми видобування знань сприяє зближенню між собою двох образів.

Отже, шар S21 включає вивчення й керування процесом розроблення спеціальної проміжної мови, необхідної для взаємодії інженера зі знань і експерта.

Понятійна структура (S22)

Проблеми формування понятійної структури надають на­ступний шар S22 лінгвістичного аспекту проблеми видобуван­ня знань. Особливості формування понятійної структури обу­мовлені встановленим постулатом когнітивної психології про взаємозв'язок понять у пам'яті людини й наявності семантич­ної мережі, що поєднує окремі терміни у фрагменти, фрагмен­ти у сценарії й тощо. Побудова ієрархічної мережі понять, так званої «піраміди знань», — найважливіша ланка в проекту­ванні інтелектуальних систем.

Більшість фахівців зі штучного інтелекту й когнітивної психології вважають, що основна особливість природного інте­лекту і пам'яті зокрема — це зв'язаність всіх понять у деяку мережу. Тому для розроблення бази знань потрібний не слов­ник, а «енциклопедія», в якій всі терміни пояснені у словникових статтях з посиланнями на інші терміни.

Отже, лінгвістична робота інженера зі знань на цьому шарі проблем полягає в побудові таких зв'язаних фрагментів за допомогою «зшивання» термінів. Фактично ця робота є підго­товкою до етапу концептуалізації, де це «шиття» (по Шенку — КІП, концептуальна організація пам'яті [130]) набуває деякого закінченого вигляду. При ретельній роботі аналітика й екс­перта в понятійних структурах починає проглядатися ієрархія понять, докладно про яку мова йде нижче. Такі структури ма­ють найважливіші гносеологічне і дидактичне значення й останнім часом для них використовується спеціальний термін — онтології. Відзначимо, що ця ієрархічна організація добре узгоджується з теорією універсального предметного коду (УПК), відповідно до якої при мисленні використовуються не мовні конструкції, а їхні коди у формі деяких абстракцій, що в загальному узгоджуються з результатами когнітивної пси­хології. Ієрархія абстракцій — це глобальна схема, що мо­же бути покладена в основу концептуального аналізу структури знань будь-якої предметної області. Лінгвістичний еквівалент ієрархії — ієрархія понять, яку необхідно побудувати в по­нятійній структурі, сформованій інженером зі знань (рис. 2.10).

Підкреслимо, що робота зі складання словника та понятійної структури вимагає лінгвістичного «чуття», легкості маніпулю­вання термінами та багатого словникового запасу інженера зі знань, тому що найчастіше аналітик змушений самостійно роз­робляти словник ознак. Чим багатший та виразніший виходить загальний код, тим повніша база знань.

Рис. 2.10. Приклад ієрархії.

Аналітик змушений весь час пам'ятати про труднощі пере­давання образів і подань у вербальній формі. Корисними тут виявляються властивості багатозначності слів природної мо­ви. Часто інженерові зі знань доводиться підказувати слова і вирази експертові, і такі нові лексичні конструкції виявля­ються корисними.

Здатність до словесної інтерпретації залежить і від статі аналітика (параметр s11_1). Встановлено, що традиційно жінки надають більшу перевагу невербальним компонентам спілкування, а вербальні мають більший алфавіт ознак. І вза­галі, існують статеві розходження сприйняття не тільки в по­бутовій сфері, але й у професійній. Отже, в експерта-чоловіка й в експерта-жінки можуть істотно відрізнятися алфавіти для вербалізації ознак сприйнятих об'єктів.

Словник користувача (S23)

Лінгвістичні результати, співвіднесені до шарів загального коду й понятійної структури, спрямовані на створення адек­ватної бази знань. Однак часто професійний рівень кінцевого користувача не дозволяє йому застосувати спеціальну мову предметної області в повному обсязі.

Для розроблювачів-початківців несподіваними є проблеми формування окремого словника для створення дружнього інтерфейсу з користувачем ЕС, досліджувані в шарі S23. Не­обхідні спеціальні прийоми, що збільшують «прозорість» і доступність системи. Для розроблення користувальницького інтерфейсу потрібне додаткове доопрацювання словника за­гального коду з виправленням на доступність і «прозорість» системи.

Так, під час розроблення експертної системи з психодіаг­ностики АВТАНТЕСТ довелося розробити два словники термінів — один для психологів-професіоналів, другий — для неспеціалістів (клієнтів). Оскільки результат психодіагностичного тестування завжди цікавий клієнту, йому видається лістинґ із психологічним висновком загальнолітературною мовою без уживання спеціальних термінів. Цікаво, що при впровадженні системи використовувався, в основному, цей другий словник; навіть професійні психологи віддавали пере­вагу текстам з повсякденною мовою.