- •Функції мови в суспільстві та проблема їх визначення. Змістова структура та напрями прикладної лінгвістики як наукової дисципліни. Міжпредметні зв’язки прикладної лінгвістики.
- •Комп’ютерна лінгвістика. Об’єкт, предмет і завдання кл. Моделювання спілкування. Гіпертекстові технології
- •Актуальні проблеми та напрями комп’ютерної лінгвістики (машинний переклад, автоматична обробка природної мови, автоматичне анотування, реферування, моделювання спілкування тощо).
- •Системи автоматичної обробки тексту (загальні принципи створення систем автоматичної обробки тексту, приклади систем автоматичної обробки тексту, лінгвістичні процесори та принципи їх будови).
- •Машинний переклад. Характеристика досвіду та проблем розробки систем машинного перекладу.
- •Аспекти дослідження мови.
- •Психолінгвістика. Об’єкт, предмет, завдання й методи ПсЛ. Мовленнєва діяльність, її види та структура.
- •Психолінгвістика. Психолінгвістичні теорії породження, сприймання та засвоєння мовлення.
- •Прикладні аспекти психолінгвістики (судова психолінгвістика, психолінгвістика допиту, ідентифікація мовлення, мова і гендер, технології мовленнєвого впливу, техніка нлп).
- •Квантитативна лінгвістика. Об’єкт, предмет, завдання й методи квантитативної лінгвістики. Основні поняття квантитативної лінгвістики.
- •12. Корпусна лінгвістика. Об’єкт, предмет, завдання й методи корпусної лінгвістики. Корпуси текстів та їх типи.
- •Лексикографія як прикладна лінгв. Дисципліна. Об’єкт, предмет і завдання л-фії. Історія л-фії.
- •Комп’ютерна лексикографія. Напрями комп’ютерної лексикографії. Комп. Словники та їх типи
- •Словник. Базові параметри типологізації словників. Словникова стаття та її будова.
- •Мова та етнос. Етносоціальні функції мови. Етнолінгвістика. Об’єкт, предмет, завдання та напрями ел.
- •Основні поняття етнолінгвістики (етнос, етнічна самосвідомість, рідна мова, національна мова, національно-мовна картина світу тощо). Поняття мовної картини світу. Концепти та їх типи.
- •Мова і культура. Лінгвокультурологія. Предмет, завдання та методи лінгвокультурології.
- •Мова і суспільство. Функції мови в суспільстві. Соціолінгвістика. Об’єкт, предмет і завдання соціолінгвістики. Методи соціолінгвістичних досліджень.
- •Метод аналізу документальних джерел, (фонетичні засоби)
- •Актуальні проблеми соціолінгвістики. Мовна ситуація, її типи та складові. Характеристика мовної ситуації в Україні
- •Мова й держава. Політична лінгвістика, її об’єкт, предмет, завдання та методи. Методики
- •Політичний дискурс. Жанри політичної комунікації.
- •Основні поняття політичної лінгвістики (мовна політика, мовне будівництво, мовне планування). Характеристика мовної політики в Україні.
Системи автоматичної обробки тексту (загальні принципи створення систем автоматичної обробки тексту, приклади систем автоматичної обробки тексту, лінгвістичні процесори та принципи їх будови).
Одним із головних прикладних напрямів комп. лінгв. є автоматична обробка природної мови, що передбачає створення, перетворення й аналіз текстів із застосування природної або штучної (копм.) мов, результатом чого може бути формування машинних фондів національних мов, автоматичних словників, термінологічних банків, копм. картотек, баз даних, тощо.
АОПМ складається із трьох блоків: 1) діалоговий компонент (на глобальному рівні – задача; на тематичному – вибір конкретної проблеми; на мовленнєвому – послідовність мовленнєвих актів учасників); 2) блок розуміння – аналіз та інтерпретація; 3) блок породження – синтез. Аналіз і синтез текстів здійснюється на базі лінгвістичних процесорів - програмно-лінгвістичних комплексів багаторівневого типу, орієнтованих на граматичний, семантичний або когнітивний аналіз, синтез і перетворення текстової інформації та діалог із користувачем.
Лінгвістичний процесор можна представити як сукупність трьох основних блоків. На вході - текст (він може бути різним, наприклад, з якого-не-будь текстового файлу). Перший блок лінгвістичного процесора - це попередня обробка тексту, другий блок - пофразова обробка, третій - послівна обробка тексту. На виході цих блоків - розмічений фонемний текст.
Розглянемо послідовно ці три блоки.
Перший блок |
полягає в попередній обробці тексту, у його нормалізації, у приведенні тексту до канонічного вигляду. Блок попередньої обробки тексту виконує такі операції: - операцію очищення тексту від службових знаків, які не мають відношення до мови (знак переносу рядка, табличні знаки і т.д.), що перетворює текст на екрані у нормальний орфографічний текст; - операцію перетворення різних скорочень і абревіатур у лінійний текст (наприклад: скорочення «і т.д.» перетвориться в «і так далі», абревіатура «СНД» у «ес єн де», «США» - у «ес ша а», або, якщо знадобиться, абревіатури розшифруються цілком, тому що синтезатор без попередньої обробки прочитає їх як «снг», «сша» і «фрг»); - операцію перетворення «число - числівник», тобто правила перетворення чисел у їхнє орфографічне представлення (наприклад: число 28 453 перетвориться в числівник «двадцять вісім тисяч чотириста п'ятдесят три»). Щоб синтезувати вимову будь-якого числа, потрібно не менше ста базових слів, таких, як «тисяча», «тисяч», «сто», «ста» і т.д.); » операцію перетворення формул (математичних, фізичних, хімічних і т.д.) у їхнє орфографічне представлення. |
Другий блок |
полягає у просодичній розмітці тексту. Тут ми маємо на вході нормалізований текст, і далі здійснюється пофразова обробка цього тексту. У нормалізованому тексті є тільки букви і розділові знаки, немає ні чисел, ні формул, ні скорочень, ні абревіатур. Відбувається членування цього тексту на фонетичний період, фрази і синтагми. Фонетичний період - це такий відрізок тексту, що починається з рядка, який називають абзацем. Звичайно при усному мовленні найбільшою ділянкою мовлення, що хоч якось одноманітно оформлена, є абзац, хоча існуючі синтезатори до абзацу часто не доходять, а обмежуються тільки фразами. Проте звичайний текст береться і прочитується від абзацу до абзацу. Далі цей текст розбивається на фрази. Фрази найчастіше відповідають реченням, хоча це не завжди так. Тому друге завдання — членування на фрази — досить просте в першому наближенні. Більш складним є завдання членувати на синтагми (інтонаційно-смислова єдність, мінімальна інтонаційна одиниця мовлення, що виражає у певному контексті одне поняття і може складатися із одного слова, словосполучення і цілого речення) чи членувати фрази на менші сегменти (якщо це необхідно, тому що фраза може складатися тільки з однієї синтагми). Під синтагмою розуміють елементи фрази, що мають певну самостійність у сенсі просодики, тобто певну ритмічну структуру, певну інтонаційну структуру, і які в принципі передбачають деяку паузу після того, як вони були вимовлені. Усі розглянуті процедури не є сталими і тому важко алгоритмізуються. Дві різні людини можуть прочитати той самий текст зовсім по-різному. Художнє читання - це особливий вид мистецтва. Синтезатори поки що недосконалі читці. |
Третій блок |
блок послівної обробки тексту. Цей блок може вже звертатися не до всієї фрази, а індивідуально до кожного окремого слова. Спершу здійснюється розміщення словесних наголосів. В українській мові для того, щоб проставити наголос, необхідно мати словник наголосів. Це означає, що потрібно мати повний словник мови, якщо система претендує бути системою синтезу мовлення за текстом необмеженого словника, тобто потрібно зберігати в словнику майже 100 тисяч основних словоформ, а також десятки їхніх модифікацій. На сьогодні це завдання цілком не може бути вирішеним. Уже зараз наявні такі словники, зокрема, у комп'ютерних системах для перевірки правильності правопису і виправлення граматичних помилок. Після того як будуть проставлені наголоси в кожному слові тексту, ці наголоси потрібно промаркувати. Маркування наголосів необхідне тому, що одні слова можуть мати повний (сильний) наголос, інші - слабкий (частковий) наголос, деякі слова, наприклад, прийменники і частки, взагалі не мають наголосу. Тому, спираючись на той словник, потрібно промаркувати окремі слова певним типом наголосу. У найпростішому випадку будемо виділяти повний наголос, частковий і відсутність наголосу (ненаголошені слова). Після маркування наголосів можна приступити до об'єднання слів у фонетичне слово. Ця процедура полягає в об'єднанні ненаголошених слів зі словами, у яких є наголос, тобто в об'єднанні повнозначних слів з їх прийменниками, частками і сполучниками. |
Приклади програм - TALE (початок, сюжет, герої, їх характеристики, описи - потім збирає всю інформацію і моделює продовження казки); ELIZA.
