
- •Міністерство освіти і науки україни
- •Укладачі: Романюк а. Б., канд. Техн. Наук, ст. Викладач
- •Залежності і граматика залежностей
- •Валентність та лексикон
- •Розробка граматики
- •Treebanksта граматики
- •Неоднозначність синтаксичного аналізу
- •Зважені граматики
- •Порядок виконання роботи
- •Зміст звіту
- •Інтернет посилання
Розробка граматики
При автоматичному синтаксичному аналізі дерева для речень будуються згідно (наоснові) граматики. Всі приклади, які розглядалися в цій та по попередній лабораторних роботах, використовували дуже прості граматики з мінімальною кількістю правил. Для того що мати можливість працювати з реальними корпусами (текстами) мови, можна використати синтаксично розмічені корпуси текстів treebanks для розробки граматик більшого об’єму.
Treebanksта граматики
В модульcorpusвходить модуль treebankдля доступу до 10%фрагменту корпусаPennTreebankcorpus.
|
Можна використати ці дані для розробки граматики.Наприклад,наступна програма це простий фільтр для пошуку дієслів які беруть (вживаються з) , як доповнення ціле речення.Оскільки в граматиці є правило VP -> Vs S,то ця інформація дозволяє ідентифікувати такі специфічні дієслова.
| ||
| ||
|
Корпус Prepositional Phrase Attachment Corpus, nltk.corpus.ppattach це інше джерело інформації про валентність окремих дієслів. Наступний приклад ілюструє спосіб отримання інформації з цього корпусу. Програма допомагає знайти такі пари прийменникових виразів в яких є однакові прийменники та іменники, але в залежності від дієслова прийменниковий вираз приєднується до дієслівного виразу VP або до іменникового NP.
|
Одна зі стрічок, які виводяться програмою на екран offer-from-group N: ['rejected'] V: ['received'],вказує на те що receivedочікує окремий PPдодаток приєднаний до VP,водночас rejected - окремий PPдодаток приєднаний до NP.Ця інформація також може бути використана при розробленні граматики.
Набір корпусів які розповсюджуються разом з NLTKмістить дані зPE08Cross-FrameworkтаCrossDomainParserEvaluationSharedTask.Колекція великих граматик була створена для порівняння різних синтаксичних аналізаторів і може бути окремо завантажена за допомогою модуля nltk.download() або з командної стрічки (python -m nltk.downloader large_grammars).
Набір корпусів які розповсюджуються разом з NLTKтакож містить приклад Sinica Treebank Corpus,який складається з10,000синтаксично розмічених речень вибраних зAcademia Sinica Balanced Corpus of Modern Chinese.Одне з дерев цього корпусу зображено на рисунку.
|