
- •Міністерство освіти і науки україни
- •Укладачі: Романюк а. Б., канд. Техн. Наук, ст. Викладач
- •2. Поняття автоматичного морфологічного аналізатора
- •3. Морфологічно розмічені корпуси
- •3.1 Представлення промаркованих слів
- •3.2 Доступ до морфологічно розміченого корпусу
- •3.3 Спрощений набір тегів для маркування морфологічних характеристик
- •3.4 Іменники
- •3.5 Дієслова
- •3.6 Повний набір тегів
- •3.7 Дослідження морфологічно розміченого корпусу
- •4. Використаня типу даних - словник в Python
- •4.1 Порівняння проіндексованих списків та словників
- •4.2 Тип даних словник в Python
- •4.3 Визначення (створення) словників
- •4.4 Словники по замовчуванню
- •4.5 Проведення обчислень з використанням словника
- •4.6 Комплексні ключі та значення
- •4.7 Інвертування словника
- •Порядок виконання роботи
- •Зміст звіту
- •Інтернет посилання
- •Методичні вказівки
- •Укладачі: Романюк Андрій Богданович
3.3 Спрощений набір тегів для маркування морфологічних характеристик
Для роботи з корпусами, які відрізняються наборами тегів розроблено спрощений набір тегів для маркування морфологічних характеристик (Таблиця 1).
Спрощений набір тегів для маркування морфологічних характеристик
Таблиця 1:
Тег |
Значення |
Приклади |
ADJ |
adjective |
new, good, high, special, big, local |
ADV |
adverb |
really, already, still, early, now |
CNJ |
conjunction |
and, or, but, if, while, although |
DET |
determiner |
the, a, some, most, every, no |
EX |
existential |
there, there's |
FW |
foreign word |
dolce, ersatz, esprit, quo, maitre |
MOD |
modal verb |
will, can, would, may, must, should |
N |
noun |
year, home, costs, time, education |
NP |
proper noun |
Alison, Africa, April, Washington |
NUM |
number |
twenty-four, fourth, 1991, 14:24 |
PRO |
pronoun |
he, their, her, its, my, I, us |
P |
preposition |
on, of, at, with, by, into, under |
TO |
the word to |
to |
UH |
interjection |
ah, bang, ha, whee, hmpf, oops |
V |
verb |
is, has, get, do, make, see, run |
VD |
past tense |
said, took, told, made, asked |
VG |
present participle |
making, going, playing, working |
VN |
past participle |
given, taken, begun, sung |
WH |
whdeterminer |
who, which, when, what, where, how |
Використовуючи спрощений набір тегів отримаємо наступний вигляд фрагменту Brown:
|
Виконати самостійно. Побудувати графічне представлення частотного розподілу.tag_fd.plot(cumulative=True). Який відсоток слів маркується першими п’ятьма тегами з Таблиці 1.
Використовуючи графічне застосування nltk.app.concordance()можна здійснювати побудову конкордансів з врахуванням морфологічних характеристик слів. При побудові пошукових запитів можна використовувати різні комбінації слів та тегів, наприкладN N N N,hit/VD,hit/VN, чиthe ADJ man.
3.4 Іменники
Іменники в основному відносяться до людини, місця, речей та понять (woman, Scotland, book, intelligence). Іменники зустрічаються після артиклів і прикметників і можуть бути як об’єктом так і суб’єктом дієслова, як показано в таблиці 2.
Таблиця 2.
Word |
After a determiner |
Subject of the verb |
woman |
thewoman who I saw yesterday ... |
the woman satdown |
Scotland |
theScotland I remember as a child ... |
Scotland hasfive million people |
book |
thebook I bought yesterday ... |
this book recountsthe colonization of Australia |
intelligence |
theintelligence displayed by the child ... |
Mary's intelligence impressedher teachers |
Іменники можуть класифікуватися, як загальні іменники та власні імена. Власні іменники ідентифікують специфічних (окремий конкретний предмет) людей або об’єкти (Moses, Scotland). До загальних належать всі інші іменники. Інший поділ іменників, це іменники, які можна полічити (dog, one dog, two dog, не можуть вживатися зі словомmuch) та матеріально-речовинні і збірні іменники, які не мають множини і не вживаються разом з числівниками (sand, two sandможуть вживатися зі словомmuch).
Для перевірки твердження, що іменники зустрічаються після означальних слів і прикметників потрібно здійснити аналіз морфологічно розміченого тексту та визначити до яких лексичних категорій належать слова, які передують іменникам. Спочатку створюється список біграмів, елементами якого є пари слів та тегів, наприклад , (('The', 'DET'), ('Fulton', 'NP'))and(('Fulton', 'NP'), ('County', 'N')). Далі будується частотний розподілFreqDistдля тегів з цих біграмів.
|
Результати аналізу підтверджують твердження.