
- •Міністерство освіти і науки україни
- •Укладачі: Романюк а. Б., канд. Техн. Наук, ст. Викладач
- •Залежності і граматика залежностей
- •Валентність та лексикон
- •Розробка граматики
- •Treebanksта граматики
- •Неоднозначність синтаксичного аналізу
- •Зважені граматики
- •Порядок виконання роботи
- •Зміст звіту
- •Інтернет посилання
Зважені граматики
Зважені граматики та імовірнісні алгоритми синтаксичного аналізу дозволяють частково вирішити проблеми неоднозначності результатів синтаксичного аналізу.
Перед розглядом цих питань, потрібно зрозуміти чому поняття граматичної правильності може мати градієнт. Розглянемо дієслово give. Це дієслово вимагає пряме доповнення (річ яка дається) і непряме доповнення (одержувач). Ці доповнення можуть вживатися в довільному порядку, як показано в наступних реченнях. В формі "prepositional dative", пряме доповнення вживається першим а непраме доповнення йде слідом.
(19) |
|
|
В формі "doubleobject"непряме доповнення вживається першим а пряме доповнення другим. В цьому випадку допускається довільний порядок.Однак,якщо непряме доповнення виражається займенником існує строга послідовність в конструкції з двох доповнень:
(20) |
|
|
Використовуючи корпус Penn Treebank, можна перевірити всі випадки вживання конструкцій з двох доповнень ( prepositional dative та double object) разом з словом give, як показано в наступному прикладі.
| ||
| ||
|
Результати вказують на строгу тенденцію, що коротше доповнення йде першим.
Імовірнісна клнтекстно вільна граматика (PCFG) це звичайна контекстно–вільна граматикадо кожного правила якої додана її імовірність. Така граматика дозволяє генерувати таку саму кількість дерев розбору для тексту, як і звичайна граматика та встановлює імовірність для кожного з розборів.Імовірність дерева розбору на основіPCFGце добуток імовірностей правил , які були використані при його побудові..
Найпростіший спосіб визначити PCFGце використати спеціальне форматування стрічки, яка містить зважені правила, де вага (імовірність) вказується в квадратних дужках, як показано у наступному прикладі.
| ||
| ||
|
Деколи зручно поєднати декілька правил у одну стрічку,наприклад,VP -> TV NP [0.4] | IV [0.3] | DatV NP NP [0.3] і це дозволяє легко перевірити що в PCFGграматиках для всіх правил з однаковою лівою стороною сумарна імовірність повинна дорівнювати одиниці. Дерево розбору побудоване з використанням такої граматики також буде містити імовірність:
|
Тепер коли, для кожного дерева розбору встановлена його імовірність, велика кількість таких дерев вже не має такого значення оскільки синтаксичний аналізатор може вибрати найбільш імовірні з них.