Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
69-77.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.77 Mб
Скачать

Автоматичний синтаксичний аналіз

Граматика, за допомогою якої здійснюється міжсегментний аналіз, описує спосіб структурної організації предикативних частин у складному реченні стосовно комбінаторики сегментів, усередині яких визначено або предикативні пари, або окремі представники пре­дикативних центрів чи претендентів на їхню роль. Зробимо деякі пояснення щодо претендентів на підмет і присудок.

І підметом, і присудком можуть бути практично всі частини мови, більше того, одна й та ж частина мови може бути в одному реченні підметом, в іншому - присудком. Претендент на підмет <П1> - це елемент з диз'юнктивним кодом підкласу, що означає омонімію називного та інших відмінків або інших класів (займен­ник - сполучне слово, абревіатура). Зняття омонімії мож­ливе лише після визначення тієї функції» яку аналізоване слово виконує в реченні.

Необхідність у введенні поняття претендент на прису­док пояснюється двома причинами процедурного харак­теру: по-перше, аналіз речення здійснюється зліва напра­во і, коли іменна частина іменного складеного присудка передує допоміжному дієслову або зв'язці та вони розділе­ні дистантним зв'язком, іменна частина умовно вважа­ється претендентом на присудок до з'ясування правого оточення зв'язки або допоміжного дієслова. Наприклад,

сет. 1 сегм. 1 сет. 2 сет. 2 сет. З

числовими даними<С2>. які введені 9 термінала, можуть біти<С>...

По-друге, однорідні компоненти присудка можуть ви­явитися в різних сегментах, наприклад,

оегм. 1 сегм. 1 сет. 2 сет. 2

числові дані для аналізу можна ввеспиКО і прочитати<СЗ> я термінала

В обох випадках уточнення складу присудка буде здій­снюватися на другому етапі, мета якого - формування предикативної синтагми в сегменті.

Претендентів на присудок п'ять:

<СІ> - допоміжна частина складеного іменного присудка {буде моделлю);

<С2> — іменна частина іменного присудка (буде мо­деллю)',

<СЗ> - інфінітив;

<С4> - присудкові прислівники (можна, треба); <С5> - слова диз'юнктивного класу (прикмет­ник/прислівник краще).

Наступне зауваження стосується складного речення. Уточнюючи остаточно межі ПЧ і формуючи зв'язки між ними у дереві залежностей складного речення, необхідно розв'язати такі питання: між якими компонентами конс­трукції мають встановлюватися відношення залежності, що утворюють синтаксичну структуру; який має бути напрям цих відношень залежності, тобто, які компоненти будуть визнані головними, а які - залежними; який тип зв'язків має бути приписаний цим відношенням залеж­ності.

Про способи зображення сурядного зв'язку вже згаду­валося у попередній темі - вони залишилися тими ж. Що ж стосується складнопідрядних речень, то вони мають такі особливості у встановленні відношень залежності напрямку і типу зв'язку.

Пропонується п'ять моделей зображення.

Модель 1. Правила даної моделі працюють у тому ви­падку, коли предикативні частини з'єднує підрядний сполучник (код СП). Тоді СП підпорядковується кореню (точніше, ядру) головного речення, а сполучнику підпо­рядкований корінь (ядро) підрядного, тобто абсолютною вершиною складного речення стає присудок головного речення. Зв'язок через підрядний сполучник позначаєть­ся буквою О. Наприклад

о

Припускається, що подібні розподіли зберігають зв'язки.

Модель 2. Коли підрядне речення приєднується до го­ловного за допомогою сполучного слова, то абсолютною вершиною є корінь (ядро) головного речення, що підпо­рядковує собі корінь (ядро) підрядного, а той, у свою чер­гу, сполучне слово. Зв'язок через сполучне слово познача­ється буквою І.

І

Зрозуміло, чому рішення було єдиним.

Модель 3. За правилами даної моделі зв'язується голо­вне речення, яке має у своєму складі співвідносне слово, з підрядним, що має у своєму складі підрядний сполуч­ник. Тоді корінь (ядро) головного речення підпорядковує собі співвідносне слово у головному реченні, співвідносне слово підпорядковує сполучник у головному, а сполучник - корінь (ядро) у підрядному. Для цієї моделі підрядний зв'язок позначається через Р, наприклад,

р р р

Модель описана так, що стає зрозумілою.

Модель 4. Правила даної моделі зв'язують головне і підрядне зі сполучним словом таким анафоричним зв'яз­ком, який співвідносить дане сполучне слово з його ан­тецедентом і сполучним словом. Для зображення у дерев

і

залежностей пропонується така домовленість: підрядний зв'язок /Н/ з'єднує корінь (ядро) головного речення зі співвідносним словом у ньому і корінь підрядного, а той,

у свою чергу, сполучне слово, наприклад, *

Програма аналізується, тоді, моли з "являється помилковий оператор.

П N

Модель 5. Уживання окремих підрядних сполучників супроводжується у відповідному головному реченні сло­воформами - корелятивами. При цьому частина сполуч­ника, яка стоїть у головному реченні, підпорядковується кореню (ядру) головного речення, друга частина, що сто­їть у підрядному, підпорядковується тій частині сполуч­ника, яка в головному, й, у свою чергу, підпорядковує корінь підрядного (тип підрядного зв'язку Ь), наприклад,

Якщо добре описаний принцип роботи, то полегшується розуміння деяких вузлів.

Отже, систему алгоритмів І—III етапів побудовано у ви­гляді наближених моделей: спочатку на базі певних понягь і недостатніх фактичних даних будується діюча, але недосконала модель сегментації тексту. Знання цієї моделі дозволяє уточнити низку вихідних понять і доповнити фактичні відомості, що поліпшує модель на другому етапі. І лише на третьому відбувається остаточне членування складного речення на предикативні частини і виділення в кожній з них предикативної синтагми. Навіть з візуально­го зіставлення вхідної і вихідної інформації трьох етапів видно, наскільки істотно перетворюється об'єкт аналізу у процесі власне СА. Виявляється також повністю знятою неоднозначність деяких словоформ.

Що ж до четвертого етапу, тобто аналізу синтаксичних зв'язків слів у межах простого речення/предикативної час­тини, то він здійснюється за допомогою підграматик, які описують дієслівні, прийменникові, іменні безприйменни­кові зв'язки і зв'язки залежності відокремлених зворотів.

Звернемося до речення, наведеного на початку теми, присвяченій АСА.

і а 3 4 6 б

Широко обговорюються проблеми життя українського суспільства.

У виділяються пари слів зі зв'язком узгодження: 5 -4— б (українського суспільства)

Щ виділяються пари з дієслівним керуванням 1-4—- 2 (широко обговорюються)

^ виділяються пари з іменним керуванням З'" ► 4 (проблеми життя) 4—► 6 (життя суспільства)

Визначення присудка і підмета було здійснено на по­передньому, першому етапі. Внаслідок перетворення ал­горитмічних правил у деревовидну структуру буде одер­жано таке дерево залежностей:

Широко обговорюються проблеми життя українського суспільства.

Проілюструємо роботу блоків алгоритму сегментації речення, виділення предикативних центрів і встановлен­ня міжсегментних зв'язків такими результатами.

Речення:

У роботі описуються висновки, 11 які в попередніх статтях ще не були наведені, 11 а також методи | [ та прийоми, 11 використані автором.

Вертикальні риски - наслідок автоматичного сегмен- тування.

Після першого етапу з п'яти сегментів виділяються:

<С П>, < ПІ СІ С2 >, < ПІ > < П 1>, < С4 С5>.

1 2 3 4 5

І сегмент: С - присудок (описуються^

П - щдмет (висновки)

  1. сегмент: ПІ - претендент на підмет (яла)

СІ - претендент на присудок (були) С2 - претендент на присудок (наведені)

  1. сегмент: ПІ - претендент на підмет (методи)

  2. сегмент: ПІ - претендент на підмет (прийоми)

  3. сегмент: С4 - претендент на присудок (використані)

С5 - претендент на присудок (автором). Після другого етапу:

Г>

<С П> <П{С}> <П1> <П1>

Скоротилася кількість сегментів із п'яти до чотирьох; встановлений зв'язок координації між присудком і під­метом у першому сегменті; чітко визначився підмет і присудок у другому. Після третього етапу:

<С П > <П С > < П > < П >

Описуються висновки, які не буяй наведені,... методи та прийоми.

Робота всіх етапів аналізу АСА в системі АГАТ ґрунту­ється на використанні засобів, існуючих у мові, для по­значення синтаксичного зв'язку між словами. До них на­лежать:

^морфологічна інформація;

^інформація про сполучуваність граматичних класів

у межах певних синтаксичних конструкцій; ^дані про пунктуаційні засоби, використані для

структурування речення; <дані про позиційні умови реалізації певних синта­ксичних зв'язків; ^лексична (списки слів, які можуть бути допоміжними словами у складі присудка або у складі підмета).Однак перші чотири належать до граматичного рівня і є основними, а п'ять є додатковим і звертання до нього обмежене в межах описуваної системи АГАТ.

Напевно, читачу може здатися, що процедура аналізу громіздка. Справді, алгоритми і програми за обсягом ве­ликі, але засоби для розв'язання синтаксичних задач ма­ють бути досить потужними: складність модельованого об'єкта корелює з їх складністю. У системі алгоритмів ураховуються, в основному, універсальні властивості мо­ви, які є синтаксичними показниками: лексико- граматичні класи слів, службові слова, порядок слів і пунктуація, що робить даний підхід універсальним засо­бом аналізу синтаксичної структури.

Для створення систем АСА Є. Карпіловська пропонує застосовувати різні стратегії:

^послідовний аналіз - передбачає створення слов­ника еталонних словосполучень (синтагм), записа­них у термінах граматичних класів слів; ^передбачувальний аналіз - ґрунтується на наборах синтаксичних передбачень - гіпотетичних (імовір­них, можливих) у певних типах речень, синтакси­чних функцій окремих слів; ^методика опорних точок (є розвитком передбачу- вального аналіз/) - для слів з певними характерис­тиками визначає типові контексти, що діагносту­ють уживання слова з тією чи іншою синтаксич­ною функцією в разі його багатофункціональності; ^методика фільтрів - дозволяє завдяки встановле­ним обмеженням на вживання, сполучуваності тощо з усього набору інформації про певні слова виявити інформацію, релевантну саме для аналі­зованого тексту.

Перспективу АСА ми вбачаємо: по-перше, у розробці прийнятних практичних рішень у межах конкретних під­мов. Із характером текстів пов'язані питання граматичної структури, а, отже, і громіздкості алгоритмів. По-друге, для різних задач потрібні різного ступеня глибини (руху по тексту) розробки синтаксичних структур. Є методи, які завершуються з'ясуванням усієї структури відразу (грама­тика залежностей), і локальні (граматика БС), які зводять­ся до встановлення якихось частин структури. При розро­бці АСА ці методи краще сполучати. По-третє, найрозпов- сюдженішим видом аналізу в деяких працюючих систе­мах є синтаксичний аналіз за членами речення з попере­днім встановленням частини мови, тому що такий аналіз відображає універсальну картину синтаксичних зв'язків у реченні, яка характеризує більшість природних мов і міс­тить основні синтаксичні зв'язки слів, зручні й потрібні для практичного використання.

По-четверте, тонший синтаксичний аналіз може бути здійснено після встановлення основних синтагм і з опо­рою на них.

По-п'яте, компоненти (блоки) аналізу мають бути зро­зумілими щодо знань із шкільного курсу синтаксису, що полегшує коригування результатів. Синтактико-семан- тичному підходу до розробки АСА і ролі семантичного компонента у ньому присвячено наступну тему.

Контрольні запитання

    1. Лінгвістичні засади алгоритмів синтаксичного аналізу.

    2. Передумови автоматизації синтаксичного аналізу.

    3. Питання вивчення синтаксичної структури те­ксту за допомогою БОМ.

    4. Підходи до визначення синтаксичної структури тексту.

    5. Роль і місце синтаксичного аналізу в процесі автоматичного опрацювання текстової інформації.

    6. Типи алгоритмів АСА.

    7. Традиційний синтаксис й автоматичний синта­ксичний аналіз тексту.

Графічні способи представлення синтаксичних структур у традиційній граматиці, граматиціЛ. Теньєра, граматиці залежностей, граматиці без­посередніх складників.

    1. Деякі поняття теорії графів (граф, направлений граф, вузол графа, орієнтований граф, проективне дерево).

    2. Проблема слова й напрямок зв'язку у дереві за­лежностей.

    3. Зображення присудка, підмета у дереві залеж­ностей.

12.Зображення структур з однорідністю у дереві залежностей. Зауваження про складне речення.

13.Загальний алгоритм автоматичного синтаксич­ного аналізу тексту.

Модульна контрольна робота з теми "Авто­матичний синтаксичний аналіз"

      1. Дібрати 10 простих речень і, використовуючи табличну форму ДЗ, вручну заповнити її синтаксич­ними зв'язками за наведеним взірцем.

      2. Написати програму перетворення таблиці зв'язків у графічне представлення (граф залежнос­тей) (рекомендована література для довідки: Син- таксический анализ научного текста на ЗВМ. - К., 1999. - С. 257-261).

Література

Карпшювська Є.А. Вступ до комп'ютерної лінгвіс­тики. -Донецьк, 2003.

Кунце Ю. Введение семантических критериев в синтаксические правила // Науч.-техн. информа- ция. - 1981. - Сер. 2. - № 6. - С. 30-34.

Синтаксический анализ научного текста на ЗВМ. - К., 1999

.Автоматичний семантичний

аналіз

  • Основні проблеми автоматичного семантично­го аналізу

  • Два напрями формалізації семантики

  • Синтактико-семантичний аналіз

  • Машинна реалізація засобів синтаксичного і семантичного аналізу

Автоматичний семантичний аналіз (АСБА) є однією з найактуальніших і разом з тим найскладніших проблем комп'ютерної лінгвістики, оскільки пов'язаний із пробле­мами моделювання людського інтелекту. І хоча розробки у цьому напрямі велися тривалий час і продовжуються зараз у зв'язку з потребами суспільства у переробленні текстової інформації, на жаль, якихось усталених універ­сальних методів аналізу змісту тексту не виявлено. Ство­рювані універсальні мови смислу, на думку Ю. Марчука, наприклад, у зв'язку з проблемами машинного перекладу мали б скоротити кількість бінарних алгоритмів, спрос­тити саму процедуру перекладу з однієї мови іншою, але поки що жодної діючої системи на основі універсальних мов смислу не створено.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]