- •ДніпропетровсьКий університет імені альфреда нобеля Кафедра прикладної лінгвістики та методики навчання іноземних мов автоматичний морфологічний аналіз
- •Дніпропетровськ-2015
- •Короткі теоретичні відомості до робіт №1-№3 Практична робота № 1. Поняття автоматичного морфологічного аналізатора
- •Практична робота №2. Морфологічно розмічені корпуси
- •2.1 Представлення промаркованих слів
- •2.2 Доступ до морфологічно розміченого корпусу
- •2.3 Спрощений набір тегів для маркування морфологічних характеристик
- •2.4 Іменники
- •2.5 Дієслова
- •2.6 Повний набір тегів
- •2.7 Дослідження морфологічно розміченого корпусу
- •3.1 Порівняння проіндексованих списків та словників
- •3.2 Тип даних словник в Python
- •3.3 Визначення (створення) словників
- •3.4 Словники по замовчуванню
- •3.5 Проведення обчислень з використанням словника
- •3.6 Комплексні ключі та значення
- •3.7 Інвертування словника
- •Порядок виконання практичних робіт №1-№3
- •Зміст звіту по практичним роботам №1-№3
- •Інтернет посилання
- •Короткі теоретичні відомості
- •4.2.The Lookup Tagger Пошуковий морфологічний аналізатор
- •Практична робота №5. Використання n-грамів в автоматичному морфологічному аналізі
- •5.1.Уніграм аналізатор
- •5.2. Розділення даних для тренування та тестування аналізаторів
- •5.3. Морфологічний аналіз на основі n-грамів
- •5.4. Поєднання (комбінування) аналізаторів
- •5.5. Морфологічний аналіз невідомих слів
- •5.6. Збереження результатів тренування аналізаторів
- •Практична робота №6. Transformation-Based Tagging
- •6.1. Категорії слів англійської мови
- •Порядок виконання робіт №5-№6.
- •Зміст звіту
- •Методичні вказівки
ДніпропетровсьКий університет імені альфреда нобеля Кафедра прикладної лінгвістики та методики навчання іноземних мов автоматичний морфологічний аналіз
Методичні вказівки до практичних робіт
з дисципліни «Автоматизованний морфологічний аналіз»
для бакалаврів за фахом 6.020303 «Прикладна лінгвістика» денної форми навчання
Дніпропетровськ-2015
Методичні вказівки до практичних робіт з дисципліни «Автоматизованний морфологічний аналіз» для бакалаврів за фахом 6.020303 «Прикладна лінгвістика»денної форми навчання /Укл. Ю.К.Тараненко - Дніпропетровськ: Дніпропетровський університет ім.А.Нобеля, 2015. –34 с.
-
Укладач:
Тараненко Ю.К., д. т. н., проф.
Відповідальна за випуск:
Тарнопольский С.Б., д.п.н., проф
Рецензент:
Косарєв В.М., к.т.н., професор кафедри ЄКСІТ
Короткі теоретичні відомості до робіт №1-№3 Практична робота № 1. Поняття автоматичного морфологічного аналізатора
Процес класифікації слів за їх приналежністю до частини мови і їх відповідне маркування називається морфологічним аналізом (tagging, POS tagging). В загальному для назв цих груп слів вживаються терміни – класи слів, лексичні категорії, частини мови.
Перелік тегів, який використовується для цієї специфічної задачі називається набором тегів. Наголос в цій та наступній лабораторних роботах буде зроблено на вивченні використання тегів і здійснення автоматичного морфологічного аналізу. Автоматичний морфологічний аналіз це дуже важливий та цінний етап опрацювання текстів природною мовою, результати якого мають широке застосування.
Морфологічний аналізатор (POS-tagger), це програма, яка обробляє послідовність слів і ставить у відповідність до кожного з них, відповідний тег (тег відповідає певному набору морфологічних характеристик :
|
Програма морфологічного аналізу автоматично встановила що andцеCC, ( coordinating conjunction – сполучник сурядності);nowтаcompletelyцеRB, (adverbs – прислівник);forцеIN, (preposition - прийменник);somethingцеNN, ( noun- іменник); таdifferentцеJJ, (adjective – прикметник).
В NLTK задокументовано пояснення кожного з тегів і за допомогою простого запиту, наприклад nltk.help.upenn_tagset('RB')(nltk.help.brown_tagset('RB')), або регулярного виразу, наприкладnltk.help.upenn_brown_tagset('NN.*')(nltk.help.brown_tagset('NN.*'))можна переглянути ці пояснення.
Розглянемо наступний приклад здійснення морфологічного аналізу омонімів:
|
Омоніми refuseтаpermitзустрічаються як дієслова теперішнього часу (VBP) та іменники (NN). НаприкладrefUSEце дієслово заперечення ( "deny,") аREFuseце іменник в значенні "trash" (але вони не омофони). Отже, потрібно знати, яке з цих слів використовується для його правильної вимови в тексті. Не знаючи, яка це частина мови не можна бути впевненому у правильній вимові слова (contest, insult, present, rebel, suspect). Наприкладwing/nnяк вwind blew, вимовляється з коротким голосним, тоді якwind/vb, як вwind a clockвимовляється з довгим голосним.
Виконати самостійно. Знайти слова, які можуть бути і іменниками і дієсловами і не мають відмінностей у вимові (наприкладski , race) .
Здійснивши простий аналіз розподілу слів у тексті, можна висунути гіпотезу про приналежність цього слова до певної лексичної категорії або поставити йому у відповідність певний тег. Розглянемо результати такого аналізу для слів woman(іменник),bought(дієслово),over(прийменник), таthe(означальне слово). Методtext.similar()для заданого словаw, знаходить всі його контекстиw1ww2, та знаходить всі словаw'в тексті, що зустрічаються в таких самих контекстах,w1w'w2.
|
Слова, які вживаються в аналогічному до womanконтексті вказують на те що це іменник;bought– переважно дієслова;over- прийменники;the– означальні слова . Програма морфроргічного аналізу може коректно ідентифікувати теги цих слів при врахуванні їх контексту в реченні. Наприклад ,The woman bought over $150,000 worth of clothes.
Автоматичний морфологічний аналіз також допомагає передбачити частину мови попередньо невідомих слів. Наприклад, якщо зустрічається слово bloggingможна передбачити що це дієслово, з основоюblogякщо воно вживається після допоміжного словаto be(he was blogging)scrobbling-scrobble, (he was scrobbling).