Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ministerstvo_osviti_i_nauki_Ukrayini (2).docx
Скачиваний:
38
Добавлен:
08.02.2016
Размер:
241.95 Кб
Скачать
    1. Рівень “розумiння” тексту

Останні десятиріччя розвитку мовознавства в чималій мiрi характеризуються становленням інженерно - лінгвістичної методології дослідження й опису мови. Це пов’язано як із прагненням мовознавців будувати моделі, котрі відтворюють реальні мовні факти, так i з об’єктивною необхідністю опрацювання i впровадження у промисловість i доведення до кінцевихкористувачів ефективних систем автоматичної обробки текстової інформації (далі - IС, iнформацiйнi системи).[25]

За М.С.Блехманом рівень “розуміння” (РР) тексту iнформацiйною системою - це така переробка цього тексту, яка забезпечує певну міру користі для користувача, що прагне задовольнити свою iнформацiйну потребу або iнформацiйну потребу іншої людини - кінцевого користувача. Точніше, РР тим вищий, чим більший відсоток існуючої в тексті інформації користувач може одержати від інформаційної системи.[9]

Практично максимальним був би такий рівень розуміння “тексту системою, який вiдповiдав би рівню розуміння його людиною-фахiвцем у даній області знань. При цьому фахiвець-користувач міг би одержати від “фахівця” - IС практично всю інформацію, закладену в текст автором, незалежно від ступеня експліцитності її вислову. Проте, між рівнем розуміння тексту людиною-фахiвцем i IС будь-якої мислимої мiри потужності існує істотна різниця, котра проявляється в тому, що практично будь-який текст містить, зокрема, таку інформацію, яка в принципі не може бути виявлена жодною інформаційною системою. Причиною цього нерозуміння є те, що людина розуміє i план вислову, i план змісту тексту, тоді як IС “розуміє” (з тією чи іншою мірою глибини) тільки план вислову, i ніяке лінгвістичне забезпечення, яким би потужним воно не було, не може допомогти системі зрозуміти до кінця зміст тексту. В зв’язку з цим М.С.Блехман розцінює як метафоричні вислови типу “розпізнавання змісту тексту інформаційноюсистемою ”, оскільки зміст як такий в усіх випадках залишається невловимим для ЕОМ, а це, в свою чергу, означає неможливість справжнього розуміння тексту машиною.

Дійсно, для того, щоб машина могла зрозуміти зміст, ми повинні заздалегідь пояснити їй, що це таке, i описати зміст мовних одиниць i механiзмiв. Проте будь-яке завдання змісту при цьому виявляється описовим. З часів Ф. де Сосюра лiнгвiсти, слідом за засновником структуралізму, намагаються описати зміст мовних одиниць через їх місце в системі мови i/або структури тексту, вважаючи, що зміст одиниці - це сума її оточень, деяка комбiнацiя або iєрархiя елементарних семантичних ознак i та iн. При цьому зміст оточуючих i складових одиниць не задається, так що опис не носить змістовного характеру. Можна, наприклад, сказати, що семантичний множник “каузувати” входить у значення слів “убрати”, “знищити”, “примусити”, але пояснити системі, що таке “каузувати” навряд чи можливо.[6]

Іншими словами, чим глибший (“глибинний”) опис семантики ми задаємо, тим більш очевидним стає хибне коло, до якого зводиться цей процес: для опису змісту одиниціАнеобхідно аксіоматично задати зміст Б, а при необхідності описати зміст Б - аксіоматично задається зміст А. Так, наприклад, значення слова “пори” можна пояснити за допомогою слів “дірочки”, “отвори“ та ін., але для пояснення змісту цих останніх, у свою чергу, необхідно залучення змісту слова “пори”. При такому опису змісту навряд чи можна очікувати розуміння машиною змісту виразів “безпористий матеріал”, “усадка деталі” тощо. Зрозуміло, ще складнiшi проблеми потрібно вирішити, описуючи зміст синтаксичних i, тим більше, гiперсинтаксичних відносин. Дійсно, як описати зміст причинно-наслідкових відносин між подіями? Можливо, так: “Якщо наступила подія А, то з iмовiрнiстю, рiвнiй одиниці, настане i подія Б”? Проте таке твердження є по суті аналогічним твердженню, що понеділок є причиною вівторка. У вiдомiй монографії Р.Шенка пропонується вважати, що IС розуміє текст, якщо вона може (а) перефразувати його i (б) “обчислити” всі його пресупозицiї. З нашої точки зору, ці критерії “не працюють” на реальних текстах. Справа в тому, що для обчислення пресупозицiй одного знання мови виявляється зовсім недостатньо, адже людина при обчисленні пресупозицiй використовує такі поняття, що погано формалізуються, як, скажімо, здоровий глузд. Наприклад, для висловлювання “Від Іванова пішла кохана жінка” ми не будуємо пресупозицiї “Жінка Іванова не була розбита паралічем, тобто могла ходити”, “Іванов не тримав жінку в зачиненому примiщеннi” тощо. З іншого боку, ми легко вiдповiмо на питання “Чи добре тепер Іванову?” Взагалі, розуміння тексту людиною передбачає таке тлумачення цього тексту, яке співпадає із задумом автора, інакше адресат “не так зрозуміє текст”, тобто взагалі не зрозуміє його. Ось приклад:

Пообідавши в кав’ярні, я хочу з’ясувати, чи маю віднести посуд до віконця збору брудного посуду, чи можу залишити його на столі. Звертаюсь до господині: ”Пані Надіє, я залишив посуд на столі”. Вона миттєво вiдповiдає: “Не мала жодного сумніву, бо ви ж порядна людина”.

Вони просто не порозумілися.

Отже, ми приходимо до важливого припущення: надзвичайно складним, якщо взагалі можливим, є створення IС, для функціонування яких машині необхідно виявити реальне розуміння тексту, тобто проникнення в план його змісту. IС такого типу утворюють гіпотетичний клас систем, якi можна назвати класом систем вищого рівня, а розуміння ними тексту - вищим рівнем розуміння. Наведемо приклади таких гіпотетичних систем:

  • IС, якi самонавчаються шляхом читання наукових текстів i обчислення того, що є новим у них;

  • IС, що перевіряють логіку викладу в наукових текстах;

  • IС, котрі вiдповiдають на такі запитання по науковому тексту, котрi вимагають “обчислення” пресупозицiй.

Неможливість побудови реальних систем вищого класу пояснюється, без сумніву, в першу чергу, тим, що таке розуміння тексту не припускає природного для сучасних систем відриву форми від змісту. Іншими словами, користуючись метафорою ЛьюiсаКерролла, можна сказати, що форма без змісту - це посмішка без кота. За вiдсутностi ж цього “кота” будь-яка вдала вiдповiдь системи на питання людини буде по суті випадковою, тобто не обумовленою дійсним розумінням фрагменту дiйсностi, що описується текстом. Розгянемо, для прикладу, речення з “Аліси у Задзеркаллі”: ’Itwasbrillig’. На питання Howwasit? система вiдповiсть: Brillig, демонструючи таке ж “розуміння” тексту, як відома IС “Еліза” Дж. Вейценбаума.[12] Зрозуміло, що, чим складнішими (в мовному i смисловому планах) будуть питання, котрі контролюють розуміння системою змісту тексту, тим більш явним буде її повна неспроможність зрозуміти текст. Замислимося, наприклад, чи можна вимагати від IС аналізу правильності логіки авторів у нижченаведеному мiркуваннi, якщо не пояснити їй змістовно значення причинно-наслідкового відношення між висловами: „Дослідження показали, що між особливостями синтаксичної структури елементів тексту та інформацією, включеною в них, є певний зв'язок. Тоді для виявлення суттєвих елементів інформації можна використовувати синтаксичну структуру речення.[20] Головною причиною такого “вiдторження” (“отторжение” - термін Р.Г.Пiотровського) мови машиною є, на наш погляд, антропоморфізм мови, її повна зорiєнтованiсть на людину i, як наслідок, незрозумiлiсть автомату, позбавленого “людського чинника”. Дійсно, будь-яка граматична чи функцiонально-граматична категорія, будь-яке синтаксичне відношення, будь-яке семантичне узагальнення “пiдiгнанi” під людину, під її світосприйняття, є зручними для людини, i тільки для людини. Наприклад, ми розрізняємо виділений i невиділений з класу об’єкти, але не розрізняємо “158-й i не 158-й з кінця”. Ми користуємося поняттями суб’єкта, предиката i т.iн., тому що нам так звично i зручно.

Саме звичкою i вигодою, викликаними “структурою” нашого світу й особливостями життя людини в ньому, пояснюються ці та незліченні iншi особливості людської мови. Людина постійно зустрічається з причинно-наслідковими відносинами в навколишньому житті, тому вони знаходять відтворення в мові.

Якби окрема людина не знала, що значить “тому”, вона б не зрозуміла вислів “Я мислю, отже, я існую”. Якби ця людина не знала, що значить “дуже”, вона б не зрозуміла, що значить “Я дуже люблю Баха”.

Щоб зрозуміти, що значить “лавка”, треба володіти людською потребою i можливістю узагальнювати. Справді, чому в один клас об’єктів об’єднуються саме лавки, а не лавки та коні, адже й у тих, i у других є ноги, на них можна сидіти, i т.iн.?

У кожному мовному знаку, в кожній синтаксичній структурі, вислові, тексті яскраво проявляються такі суто людські, “невловимі” поняття, як “корисність”, “вигода”, “здоровий глузд” тощо. Кажучи “У нього голова, як м’яч”, ми маємо на увазі не наявність шраму (схожого на шнурівку м’яча), а скоріше тільки форму голови. Кажучи “Він пішов до лікаря”, ми скоріше маємо на увазі, що він захворів, а не, скажімо, відправився звести рахунки з приятелем своєї жінки. Приклади ці можна було б продовжувати до нескiнченностi.

Як бачимо, засіб органiзацiїмовних одиниць i відносин у систему диктується “суттю” людини i навколишнього світу. Проте глибина цих понять є недосяжною до кінця навіть самій людині, не кажучи вже про ЕОМ, для якої людини просто не існує, отже не існує й потреби розуміти те, що розуміє людина. Вiдсутнiсть же такої потреби призводить до принципової неможливості зрозуміти текст.

Таким чином, ми стверджуємо неможливість побудови систем вищого класу, обмежуючи можливості ЕОМ “згори”. У той же час, наявність діючих iнформацiйних систем свідчить про те, що машина якимось чином “розуміє” текст.

З iншого боку, i людина часто опрацьовує текст, фактично не розуміючи його. Так, М.С.Блехман стверджує, що можна непогано перекласти текст з однієї мови на іншу, не маючи жодного уявлення про суть явища, що описується в цьому тексті, тобто про план змісту даного тексту. Отже, машина “розуміє” текст, не розуміючи його.

IС - це така система, в якій текст деяким чином опрацьовується з метою задоволення iнформацiйних потреб користувача. Залежно від цих потреб ЕОМ тим чи іншим чином “розуміє” текст, не досягаючи, як ми бачили, максимального рівня розуміння. При цьому, так як IС опрацьовує текст з метою задоволення iнформацiйних потреб користувача, при наведенні будь-якої класифікації слід відштовхуватися від того, яку нову інформацію та в якій її кількості користувач отримує в результаті опрацювання тексту інформаційною системою.

Тобто, по суті,вищий рівень розуміння в даному випадку буде мати ІВ, яка розуміє текст не гірше людини. Прикладом ІС вищого рівня може служити людський мозок.

При цьому, різні ІС можуть потребувати різних рівнів розуміння для досягнення поставленої задачі, ІС може потребувати в різній кількості різного роду інформацію. Тому класифікація, на нашу думку, не повинна прив'язуватись до певних систем, і спиратися на засоби розуміння - дані та алгоритми, за допомогою яких система обробляє текст. Саме засоби розуміння і визначають здатність системи витягати інформацію з тексту.

Отже, нульовий рівень розуміння (РР0) - це, відповідно, рівень, при якому ІС, працюючи з текстом, не може витягти з тексту ніякої іншої інформації, окрім тієї, яка міститься в тексті у вигляді послідовності символів. Для цього рівня не використовується інформація про мову тексту. Прикладом такої системи може бути найпростіша пошукова система, яка сканує текст на наявність певного запитаного користувачем ряду розташованих один за одним символів.

Більш високий рівень розуміння - РР1 - при якому ІС не просто сканує текст, але в змозі розпізнати елементи тексту - абзаци, речення, фрази, слова, морфеми. Засоби розуміння даної системи обмежуються інформацією про структуру тексту. Вилучена інформаційною системою інформація використовується системами для різних цілей. До таких систем відносяться системи автоматичного звукового відтворення тесту, т.зв. „Читалка”, наприклад, програма під назвою „розмовляюча миша”. Для правильної інтонації і розстановки наголосів система не тільки здатна членувати слова на морфеми і склади, але навіть визначати типи пропозицій.

Більш високим рівнем розуміння - РР2 - можуть бути ІВ, які здатні вже в деякій мірі розуміти не тільки структуру тексту, але й орієнтуватися в змісті. Звичайно, таким системам потрібна не тільки інформація про структуру мови, а також деякі алгоритми та правила, які визначають розуміння змісту тексту. Подібні системи можуть використовувати отриману інформацію для того, щоб, наприклад, відповісти на прямо поставлені питання по тексту, не відхиливши ні на дюйм від його змісту. Прикладом такої системи є IС „Елiза” Дж. Вейценбаума.

Ідучи ще далі, говорячи про РР3, можна відзначити, що ІС з таким РР повинно вміти розуміти більше, ніж ІС з РР2, а саме, в деякій мірі розуміти суть всього тексту. Засоби даної системи повинні дозволити вийти за рамки розуміння речень тексту, і визначити, про що йде мова в тексті, використовуючи вже більш складні алгоритми та використовуючи інформацію, що міститься в базі даних системи, так, що система може отримати таку інформацію з тексту, яка в тексті не присутня у відкритому вигляді. При цьому ІС може зробити короткий висновок про зміст тексту. Прикладом такої ІС може служити система GoogleAddSense, яка сканує сторінки веб-сайту і робить висновок про тематику змісту, після чого система розміщує відповідне рекламне оголошення у відведеному для цього місці.

Якщо уявити ще більш високий рівень розуміння - РР4 - але який не досягає вищого рівня розуміння - то це має бути такий рівень, при якому ІС витягує більше інформації, ніж ІС РР3, але менше, ніж людина. Гіпотетично, це система, яка, на основі отриманої інформації, яка могла б перефразувати текст і будувати до нього пресупозиції. Інформація про існування таких систем поки відсутня.

Відповідно, вищий рівень розуміння - РР5. Системою з РР5 є людський мозок, здатний не тільки перефразувати текст або будувати пресупозиції на основі отриманої інформації, а також отримувати інформацію, глибокого змісту, що міститься в тексті, і враховувати «людський фактор». Наприклад, розуміти, що хотів висловити автор, розуміти сенс метафор, бачити ставлення автора до того чи іншого питання, тощо.

При вищому рівні розуміння система машинного перекладу перекладала б тексти подібно людині, яка могла б адекватно перекладати тексти художнього стилю.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]