- •Місце автоматичного синтаксичного аналізу в загальній схемі опрацювання текстів природною мовою.
- •Поняття автоматичного синтаксичного аналізу.
- •Мови програмування
- •Поняття безпосередніх складників.
- •Ознаки безпосередніх складників.
- •Вихідні дані для побудови контекстно-вільної граматики.
- •Поняття контекстно-вільної граматики.
- •Формальне визначення контекстно-вільної граматики.
- •Структура np виразу англійської мови та її представлення в квг.
- •Реалізація явища узгодження в правилах квг.
- •Структура vp виразу англійської мови та її представлення в квг.
- •Вплив класів дієслів на правила для vp в квг.
- •Синтаксично розмічені корпуси Treebanks.
- •Використання Treebank для побудови квг.
- •Лексикалізовані квг.
- •Поняття еквівалентності граматик.
- •Поняття нормальної форми Хомського граматик.
- •Поняття граматики залежностей.
- •Синтаксичний аналіз, як пошукова задача.
- •Стратегії здійснення синтаксичного аналізу.
- •Побудова таблиці в алгоритмі cky. Приклад.
- •Відтворення дерева розбору в алгоритмі cky. Приклад
- •Проблеми використання алгоритму cky.
- •Загальна характеристика алгоритму Ерлі.
- •Поняття імовірнісної квг.
- •Способи вирішення проблем імовірнісних квг.
- •Лексикалізована імовірнісна квг.
- •Параметри оцінки синтаксичних аналізаторів.
- •Автоматичний семантичний аналіз (аСемА). Визначення.
- •Способи представлення смислу.
- •Вимоги до представлення значення.
- •Вимога забезпечення можливості перевірки.
- •Вимога однозначності представлення.
- •Канонічна форма представлення.
- •Способи отримання канонічної форми.
- •Вивід та використання змінних.
- •Виразність а всеохопність представлення значення.
- •Поняття формальної семантики.
- •Модель «світу » в формальній семантиці.
- •Загальна характеристика логіки першого порядку.
- •Основні поняття логіки першого порядку.
- •Проблеми опису станів та подій в лпп.
- •Представлення часу в лпп.
- •Здійснення семантичного аналізу на основі принципу композиційності.
- •Збагачення правил квг семантичної інформацією.
Поняття імовірнісної квг.
Ν |
НАБІР НЕТЕРМІНАЛЬНИХ СИМВОЛІВ |
Σ |
НАБІР ТЕРМІНАЛЬНИХ СИМВОЛІВ (НЕ ПЕРЕТИНАЄТЬСЯ З Ν) |
R |
НАБІР ПРАВИЛ АБО ПРОДУКЦІЙ ВИГЛЯДУ A-> β[p], ДЕ A - НЕТЕРМІНАЛ, β-СТРІЧКА СИМВОЛІВ З НЕОБМЕЖЕНОГО НАБОРУ СТРІЧОК (Σ U N), p – ЧИСЛО ВІД 0 ДО1, ЯКЕ ВИРАЖАЄ УМОВНУ ІМОВІРНІСТЬ P(β|A) |
S |
ПОЧАТКОВИЙ СИМВОЛ |
A-> β[p]
P(A-> β)
P(A-> β |A)
Для чого може бути використана імовірнісна КВГ.
ІКВГ ДОЗВОЛЯЄ ПОСТАВИТИ У ВІДПОВІДНІСТЬ ДО КОЖНОГО ДЕРЕВА РОЗБОРУ РЕЧЕННЯ ЗНАЧЕННЯ ЙОГО ІМОВІРНОСТІ
ІМОВІРНІСТЬ ДЕРЕВА Т – ДОБУТОК ІМОВІРНОСТЕЙ ВСІХ n ПРАВИЛ , ЯКІ ВИКОРИСТОВУВАЛИСЬ ДЛЯ ПЕРЕТВОРЕННЯ ВСІХ ВУЗЛІВ ДЕРЕВА
ПОБУДУВАТИ ВСІ ДЕРЕВА ДЛЯ ЗАДАНОГО РЕЧЕННЯ
ВИЗНАЧИТИ ІМОВІРНІСТЬ КОЖНОГО ДЕРЕВА
ЗНАЙТИ ДЕРЕВО З МАКСИМАЛЬНОЮ ІМОВІРНІСТЮ
Модифікація алгоритму CKY для використання імовірнісної КВГ.
ІКВГ ПОВИННА БУТИ В НОРМАЛЬНІЙ ФОРМІ
В МАТРИЦІ (ТАБЛИЦІ) ПОТРІБНО ЗБЕРЕГТИ ІМОВІРНОСТІ СКЛАДНИКІВ
ІМОВІРНІСТЬ НОВОГО СКЛАДНИКА ОТРИМАНОГО НА ОСНОВІ ПРАВИЛА A ® B C
ВИЗНАЧАЄТЬСЯ, ЯК: P(A ® B C | A) * P(B) * P(C)
ДЕ P(B) , P(C) - ВЖЕ ВІДОМІ ІМОВІРНОСТІ
В ТАБЛИЦІ ЗБЕРІГАЄТЬСЯ МАКСИМАЛЬНА ІМОВІРНІСТЬ ДЛЯ ВСІХ ПРАВИЛ З A
Способи побудови імовірнісної КВГ.
ВРУЧНУ, НА ОСНОВІ ВЛАСНОГО ДОСВІДУ
АВТОМАТИЧНО
РОЗДІЛИТИ ВСІ НЕТЕРМІНАЛИ НА ДВА НОВІ НЕТЕРМІНАЛИ У ВСІЙ ГРАМАТИЦІ (Х, Х1,Х2)
ДУБЛЮВАТИ ВСІ ПРАВИЛА ДЕ ВИКОРИСТОВУЄТЬСЯ НЕТЕРМІНАЛ Х І ВСТАНОВИТИ ДЛЯ ЦИХ ПРАВИЛ ОДНАКОВІ ІМОВІРНОСТІ
ТЕСТУВАТИ ІМОВІРНОСТІ ПРАВИЛ І ЗДІЙСНЮВАТИ ЗВОРОТНЄ ОБ’ЄДНАННЯ НЕТЕРМІНАЛІВ
Проблеми імовірнісних КВГ.
ПРИНЦИП ФУНДАМЕНТАЛЬНОЇ НЕЗАЛЕЖНОСТІ
КВГ ПЕРЕДБАЧАЄ, ЩО ПЕРЕТВОРЕННЯ БУДЬ-ЯКОГО НЕТЕРМІНАЛЬНОГО СИМВОЛУ НЕ ЗАЛЕЖИТЬ ВІД ПЕРЕТВОРЕННЯ ІНШОГО НЕТЕРМІНАЛУ. У ВИПАДКУ ІКВГ ЦЕ ПРИВОДИТЬ ДО НЕ ВРАХУВАННЯ СТРУКТУРНИХ ЗАЛЕЖНОСТЕЙ В ДЕРЕВІ РОЗБОРУ
ОБМЕЖЕНА ЧУТЛИВІСТЬ ДО ЛЕКСИЧНИХ ОДИНИЦЬ
КВГ НЕ ДОЗВОЛЯЄ МОДЕЛЮВАТИ (ВРАХОВУВАТИ ) ВСЛАСТИВОСТІ ОКРЕМИХ СЛІВ В СИНТАКСИЧНИХ СТРУКТУРАХ
Способи вирішення проблем імовірнісних квг.
ВНЕСТИ ЗМІНИ (ПЕРЕПИСАТИ) В ГРАМАТИКУ ДЛЯ ВРАХУВАННЯ ЗАЛЕЖНОСТЕЙ МІЖ ЇЇ ПРАВИЛАМИ
ІНТЕГРУВАТИ У ГРАМАТИКУ ЗАЛЕЖНОСТІ МІЖ ЛЕКСИЧНИМИ ОДИНИЦЯМИ (СЛОВАМИ)
Лексикалізована імовірнісна квг.
СКЛАДНИКИ МАРКУЮТЬСЯ ОСНОВНИМИ СЛОВАМИ
Параметри оцінки синтаксичних аналізаторів.
Стандартні методи для оцінки аналізаторів і граматики називають PARSEVAL. PARSEVAL – МЕТРИКА, ЯКА ВИЗНАЧАЄ СКІЛЬКИ СКЛАДНИКІВ ГІПОТЕТИЧНОГО ДЕРЕВА РОЗБОРУ ВІДПОВІДАЮТЬ СКЛАДНИКАМ З ЕТАЛОННОГО ДЕРЕВА. PARSEVAL таким чином передбачає, що ми маємо мічене людиною дерево розбору "золотий стандарт" для кожного речення в тестовому наборі, ми в загальному малюємо ці аналізатори золотого стандарту з treebank як Penn Treebank.
Чому виникає потреба використовувати структури ознак.
Поняття структур ознак.
НАБІР ПАР “ОЗНАКА”-”ЗНАЧЕННЯ”
ОЗНАКА – СИМВОЛИ ЗІ СКІНЧЕННОГО НАБОРУ
ЗНАЧЕННЯ – СИМВОЛИ АБО СТРУКТУРА ОЗНАК
СТРУКТУРИ ОЗНАК ЗОБРАЖАЮТЬ ПЕРЕВАЖНО ЗА ДОПОМОГОЮ МАТРИЦЬ “АТРИБУТ-ЗНАЧЕННЯ”
Вони представлені у вигляді матриці ознака-значення (AVMs) або як спрямований ациклічний граф (DAGs), де ознаки це спрямовані позначені дуги а значення - вузли у графі.
Поняття шлях ознаки.
ШЛЯХ ОЗНАКИ – СПИСОК ОЗНАК, ЩО ФОРМУЄТЬСЯ ПРИ ПРОХОДЖЕННІ ЧЕРЕЗ СТРУКТУРУ ОЗНАК ДО ПЕВНОГО ЗНАЧЕННЯ
Поняття реентерабельної структури ознак.
СТРУКТУРА, ЯКА ДОПУСКАЄ РЕКУРСИВНЕ АБО ПАРАЛЕЛЬНЕ ВИКОРИСТАННЯ ШЛЯХІВ ОЗНАК
ДВА ШЛЯХИ ОЗНАК ПРИВОДЯТЬ ДО ОДНОГО ВУЗЛА СТРУКТУРИ
Уніфікація структур ознак.
ОПЕРАЦІЯ УНІФІКАЦІЇ ЗАБЕЗПЕЧУЄ ВИКОНАННЯ ДВОХ ОСНОВНИХ ДІЙ НАД СТРУКТУРАМИ ОЗНАК:
ОБ’ЄДНАННЯ ВМІСТУ (ІНФОРМАЦІЇ) ДВОХ СТРУКТУР ОЗНАК
ЗАБОРОНА (НЕДОПУЩЕННЯ) ОБ’ЄДНАННЯ ВМІСТУ (ІНФОРМАЦІЇ) ДВОХ СТРУКТУР ОЗНАК
УНІФІКАЦІЯ-БІНАРНА ОПЕРАЦІЯ, ЯКА ПРИЙМАЄ ДВІ СТРУКТУРИ, ЯК АРГУМЕНТИ І ПОВЕРТАЄ СТРУКТУРУ ОЗНАК, У ВИПАДКУ УСПІШНОГО ЗАВЕРШЕННЯ ОПЕРАЦІЇ
СУМІСНІСТЬ, ОБ’ЄДНАННЯ
Поняття включених структур ознак.
С ТРУКТУРА ОЗНАК F ВКЛЮЧАЄТЬСЯ В СТРУКТУРУ ОЗНАК G ( ), ЯКЩО:
1. ДЛЯ КОЖНОЇ ОЗНАКИ x У F
2. ДЛЯ ВСІХ ШЛЯХІВ p ТА q
Т АКИХ ЯК МАЮТЬ МІСЦЕ
Інтеграція структур ознак в КВГ.
РОЗШИРИТИ (ДОДАТИ) СТРУКТУРИ ОЗНАК ДО СКЛАДНИКІВ ПРАВИЛ ГРАМАТИКИ
ЗДІЙСНИТИ ОПЕРАЦІЇ УНІФІКАЦІЇ, ЯКІ ДОЗВОЛЯТЬ НАКЛАСТИ ОБМЕЖЕННЯ НА СКЛАДНИКИ ПРАВИЛ ГРАМАТИКИ
Використання структур ознак для опису явища узгодження в правилах КВГ.
Використання структур ознак для врахування основних слів в правилах КВГ.
Використання структур ознак для врахування класів дієслів в правилах КВГ.
Виділення підкатегорій (підкласів)
Здійснення операції уніфікації, як операція узгодження графів.
ОПЕРАЦІЯ УНІФІКАЦІЇ (ОУ)ВИКОНУЄТЬСЯ НАД ДВОМА СТРУКТУРАМИ ОЗНАК;
ОУ БУДУЄ ОДНУ ОБ’ЄДНАНУ (ЗЛИТУ) СТРУКТУРУ ОЗНАК, ЯКЩО ОПЕРАЦІЯ УСПІШНА І ПОМИЛКУ, ЯКЩО ВХІДНІ СТРУКТУРИ ОЗНАК НЕСУМІСНІ;
ВХІДНІ СТРУКТУРИ ОЗНАК МОЖНА ПРЕДСТАВИТИ У ВИГЛЯДІ НАПРАВЛЕНОГО АЦИКЛІЧНОГО ГРАФА
ОУ – РЕКУРСИВНИЙ АЛГОРИТМ ПЕРЕВІРКИ (УЗГОДЖЕННЯ) ВІДПОВІДНОСТІ ДВОХ ГРАФІВ
НОВА СТРУКТУРА ОЗНАК НЕ БУДУЄТЬСЯ А ЗАЗНАЮТЬ ЗМІН АРГУМЕНТИ (ВХІДНІ СТРКТУРИ)
Розширений граф представлення структур ознак.
Алгоритм уніфікації структур ознак.
ОТРИМАТИ РЕАЛЬНІ СТРУКТУРИ ОЗНАК ДВОХ АРГУМЕНТІВ
ПЕРЕВІРИТИ НАСТУПНІ МОЖЛИВІ ВИПАДКИ:
АРГУМЕНТИ Є ІДЕНТИЧНІ
ОДИН АБО ДВА АРГУМЕНТИ МАЮТЬ НУЛЬОВІ ЗНАЧЕННЯ
АРГУМЕНТИ НЕ Є ІДЕНТИЧНИМИ, НЕ НУЛЬОВІ І КОМПЛЕКСНІ:
ОЗНАКИ МАЮТЬ НЕ ІДЕНТИЧНІ ЗНАЧЕННЯ
СТРКТУРИ КОМПЛЕКСНІ
Використання уніфікаційних граматик в СА.
ПОТРІБНО МОДИФІКУВАТИ ОДИН З ВІДОМИХ АЛГОРИТМІВ СИНТАКСИЧНОГО АНАЛІЗУ
В ПРОЦЕСІ АНАЛУЗУ НА ОСНОВІ СТРУКТУР ОЗНАК ТА ОПЕРАЦІЇ УНІФІКАЦІЇ БУДУТЬ ВІДКИДАТИСЯ ПОМИЛКОВІ СИНТАКСИЧНІ СТРУКТУРИ
Модифікація алгоритму Ерлі для роботи з уніфікаційними граматиками.
THAT * FLIGHT
Чому необхідно копіювати структури ознак перед операцією уніфікації.
Алгоритм Ерлі працює так що структури можуть використовуватися знову і знову, тому потрібно скопіювати структуру, щою дальше її використовувати.
Недоліки структур ознак.
НЕДОЛІКИ СТРУКТУР ОЗНАК:
- ВІДСУТНІ ОБМЕЖЕННЯ НА ЗНАЧЕННЯ
ДЛЯ ОКРЕМИХ ОЗНАК
- ВІДСУТНІ СПОСОБИ УЗАГАЛЬНЕННЯ
СТРУКТУР ОЗНАК
Поняття типу.
СИСТЕМА ТИПІВ ДЛЯ УНІФІКАЦІЙНИХ ГРАМАТИК МАЄ НАСТУПНІ ХАРАКТЕРИСТИКИ:
КОЖНА СТРУКТУРА ОЗНАК МАРКУЄТЬСЯ ПЕВНИМ ТИПОМ
ДЛЯ КОЖЕН ТИПУ ВИЗНАЧЕНІ ОЗНАКИ, ЯКІ ЙОМУ ВІДПОВІДАЮТЬ;
ТИПИ ОРГАНІЗОВАНІ В ІЄРАРХІЮ ТИПІВ, В ЯКІЙ БІЛЬШ СПЕЦИФІЧНІ ТИПИ НАСЛІДУЮТЬ ВЛАСТИВОСТІ ВІД БІЛЬШ ЗАГАЛЬНИХ ТИПІВ;
ОПЕРАЦІЯ УНІФІКАЦІЇ ПЕРЕДБАЧАЄ ДОДАТКОВО ДО УНІФІКАЦІЇ ОЗНАК І ЇХ ЗНАЧЕНЬ ТАКОЖ І УНІФІКАЦІЮ ТИПІВ
Типізовані структури ознак.
ПРОСТІ ТИПИ
СИМВОЛИ ПОДІБНІ ДО SG, PL , ЯКІ ЗАМІНЮЮТЬ ЗНАЧЕННЯ У СТРУКТУРАХ ОЗНАК
ОРГАНІЗОВАНІ В ІЄРАРХІЮ З БАГАТОРАЗОВИМ НАСЛІДУВАННЯМ
В ІЄРАРХІЇ МОЖЛИВА УНІФІКАЦІЯ ТИПІВ
КОМПЛЕКСНІ ТИПИ
НАБІР ОЗНАК, ЯКІ ВІДПОВІДАЮТЬ ДАНОМУ ТИПУ
ОБМЕЖЕННЯ НА ЗНАЧЕННЯ ДЛЯ ЦИХ ОЗНАК
ЮЮЮ
Прості типи структур ознак.
Arg – ТИП , ЯКИЙ МОЖЕ БУТИ ЗНАЧЕННЯМ ОЗНАКИ AGREE
Комплексні типи структур ознак.
ТИП-verb ДЛЯ ОПИСУ УЗГОДЖЕННЯ ТА МОРФОЛОГІЇ ДІЄСЛІВ
ТИПИ ЗНАЧЕНЬ ОЗНАК – arg, vform
Vform – 7ПІДТИПІВ(FINITE, INFINITE….)
ТИП-noun ДЛЯ ОПИСУ УЗГОДЖЕННЯ
Місце автоматичного семантичного аналізу в загальній схемі опрацювання текстів природною мовою.
ЗА ДОПОМОГОЮ МОВИ МИ МОЖЕМО КОДУВАТИ АБО РОЗКОДОВУВАТИ:
ОПИС СВІТУ
ПРО ЩО МИ ДУМАЄМО
ЩО МИ ДУМАЄМО ПРО ТЕ ПРО ЩО ДУМАЮТЬ ІНШІ ЛЮДИ
ХОЧА НАСПРАВДІ, ЧИ МОЖЕМО МИ ПІДІБРАТИ ПОСЛІДОВНІСТЬ СЛІВ, ЯКА:
ВІДПОВІДАЄ СВІТУ
ГОВОРИТЬ ПРО ЩО ВИ ДУМАЄТЕ
ГОВОРИТЬ ЩО ВИ ДУМАЄТЕ ПРО ТЕ ПРО ЩО ДУМАЮТЬ ІНШІ ЛЮДИ
РОЗМОВЛЯЮЧИ, МИ БУДУЄМО ПОСЛІДОВНОСТІ СЛІВ ТАКИМ ЧИНОМ, ЩОБ ІНШІ ЛЮДИ ПОЧУВШИ АБО ПРОЧИТАВШИ ЇХ І ЇХ ЗРОЗУМІВШИ, ДІЗНАЛИСЯ, ЩО МИ ДУМАЄМО ПРО СВІТ
МИ ПРЕДСТАВЛЯЄМО СВОЄ РОЗУМІННЯ, СВІЙ ОПИС СВІТУ