Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Прикладна лінгвістика.docx
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
150.65 Кб
Скачать
  1. Системи автоматичної обробки тексту (загальні принципи створення систем автоматичної обробки тексту, приклади систем автоматичної обробки тексту, лінгвістичні процесори та принципи їх будови).

Одним із головних прикладних напрямів комп. лінгв. є автоматична обробка природної мови, що передбачає створення, перетворення й аналіз текстів із застосування природної або штучної (копм.) мов, результатом чого може бути формування машинних фондів національних мов, автоматичних словників, термінологічних банків, копм. картотек, баз даних, тощо.

АОПМ складається із трьох блоків: 1) діалоговий компонент (на глобальному рівні – задача; на тематичному – вибір конкретної проблеми; на мовленнєвому – послідовність мовленнєвих актів учасників); 2) блок розуміння – аналіз та інтерпретація; 3) блок породження – синтез. Аналіз і синтез текстів здійснюється на базі лінгвістичних процесорів - програмно-лінгвістичних комплексів багаторівневого типу, орієнтованих на граматичний, семантичний або когнітивний аналіз, синтез і перетворення текстової інформації та діалог із користувачем.

Лінгвістичний процесор можна представити як сукупність трьох основних блоків. На вході - текст (він може бути різним, наприклад, з якого-не-будь текстового файлу). Перший блок лінгвістичного процесора - це попередня обробка тексту, другий блок - пофразова обробка, третій - послівна обробка тексту. На виході цих блоків - розмічений фонемний текст.

Розглянемо послідовно ці три блоки.

Перший блок

полягає в попередній обробці тексту, у його нормалізації, у приведенні тексту до канонічного вигляду. Блок попередньої обробки тексту виконує такі операції: - операцію очищення тексту від службових знаків, які не мають відношення до мови (знак переносу рядка, табличні знаки і т.д.), що перетворює текст на екрані у нормальний орфографічний текст; - операцію перетворення різних скорочень і абревіатур у лінійний текст (наприклад: скорочення «і т.д.» перетвориться в «і так далі», абревіатура «СНД» у «ес єн де», «США» - у «ес ша а», або, якщо знадобиться, абревіатури розшифруються цілком, тому що синтезатор без попередньої обробки прочитає їх як «снг», «сша» і «фрг»); - операцію перетворення «число - числівник», тобто правила перетворення чисел у їхнє орфографічне представлення (наприклад: число 28 453 перетвориться в числівник «двадцять вісім тисяч чотириста п'ятдесят три»). Щоб синтезувати вимову будь-якого числа, потрібно не менше ста базових слів, таких, як «тисяча», «тисяч», «сто», «ста» і т.д.); » операцію перетворення формул (математичних, фізичних, хі­мічних і т.д.) у їхнє орфографічне представлення.

Другий блок

полягає у просодичній розмітці тексту. Тут ми маємо на вході нормалізований текст, і далі здійснюється пофразова обробка цього тексту. У нормалізованому тексті є тільки букви і розділові знаки, немає ні чисел, ні формул, ні скорочень, ні абревіатур. Відбувається членування цього тексту на фонетичний період, фрази і синтагми. Фонетичний період - це такий відрізок тексту, що починається з рядка, який називають абзацем. Звичайно при усному мовленні найбільшою ділянкою мовлення, що хоч якось одноманітно оформ­лена, є абзац, хоча існуючі синтезатори до абзацу часто не доходять, а обмежуються тільки фразами. Проте звичайний текст береться і прочитується від абзацу до абзацу. Далі цей текст розбивається на фрази. Фрази найчастіше відповідають реченням, хоча це не завжди так. Тому друге завдання — членування на фрази — досить просте в першому наближенні. Більш складним є завдання членувати на синтагми (інтонаційно-смислова єдність, мінімальна інтонаційна одиниця мовлення, що виражає у певному контексті одне поняття і може складатися із одного слова, словосполучення і цілого речення) чи членувати фрази на менші сегменти (якщо це необхідно, тому що фраза може складатися тільки з однієї синтагми). Під синтагмою розуміють елементи фрази, що мають певну самостійність у сенсі просодики, тобто певну ритмічну структуру, певну інтонаційну структуру, і які в принципі передбачають деяку паузу після того, як вони були вимовлені. Усі розглянуті процедури не є сталими і тому важко алгоритмізуються. Дві різні людини можуть прочитати той самий текст зовсім по-різному. Художнє читання - це особливий вид мистецтва. Синтезатори поки що недосконалі читці.

Третій блок

блок послівної обробки тексту. Цей блок може вже звертатися не до всієї фрази, а індивідуально до кожного окремого слова. Спершу здійснюється розміщення словесних наголосів. В українській мові для того, щоб проставити наголос, необхідно мати словник наголосів. Це означає, що потрібно мати повний словник мови, якщо система претендує бути системою синтезу мовлення за текстом необмеженого словника, тобто потрібно зберігати в словнику майже 100 тисяч основних словоформ, а також десятки їхніх модифікацій. На сьогодні це завдання цілком не може бути вирішеним. Уже зараз наявні такі словники, зокрема, у комп'ютерних системах для перевірки правильності правопису і виправлення граматичних помилок. Після того як будуть проставлені наголоси в кожному слові тексту, ці наголоси потрібно промаркувати. Маркування наголосів необхідне тому, що одні слова можуть мати повний (сильний) наголос, інші - слабкий (частковий) наголос, деякі слова, наприклад, прийменники і частки, взагалі не мають наголосу. Тому, спираючись на той словник, потрібно промаркувати окремі слова певним типом наголосу. У найпростішому випадку будемо виділяти повний наголос, частковий і відсутність наголосу (ненаголошені слова). Після маркування наголосів можна приступити до об'єднання слів у фонетичне слово. Ця процедура полягає в об'єднанні ненаголошених слів зі словами, у яких є наголос, тобто в об'єднанні повнозначних слів з їх прийменниками, частками і сполучниками.

  • Приклади програм - TALE (початок, сюжет, герої, їх характеристики, описи - потім збирає всю інформацію і моделює продовження казки); ELIZA.