- •Міністерство освіти і науки україни
- •Укладачі: Романюк а. Б., канд. Техн. Наук, ст. Викладач
- •Використання основних метасимволів (операторів повтору).
- •Застосування регулярних виразів
- •Виявлення фрагментів слів
- •Обробка фрагментів слів
- •Встановлення основ слів (стемінг)
- •Пошук у токенізованому тексті
- •Використання регулярних виразів для токенізації тексту
- •Найпростіший токенізатор
- •Токенізатор на основі регулярних виразів в nltk
- •Проблеми токенізації тексту
- •Порядок виконання роботи
- •Зміст звіту
- •Інтернет посилання
- •Методичні вказівки
- •Укладачі: Романюк Андрій Богданович
Міністерство освіти і науки україни
НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ “ЛЬВІВСЬКА ПОЛІТЕХНІКА”
іНСТИТУТ КОМП’ютерних НАУК та ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ
Кафедра “Системи автоматизованого проектування ”
ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ.
ВИКОРИСТАННЯ РЕГУЛЯРНИХ ВИРАЗІВ ДЛЯ ОБРОБКИ ТЕКСТУ.
Методичні вказівки до лабораторної роботи № 6
з дисципліни “Комп’ютерна лінгвістика ”
для студентів спеціальності 7.030.505 “Прикладна лінгвістика ”
та магістрів за фахом 8.030.505 “Прикладна лінгвістика ”.
Затверджено
на засіданні кафедри
“Системи автоматизованого проектування ”
Протокол № 8 від 21.XI.2005 р.
на засіданні методичної ради ІКНІ
Протокол № 4-05/06 від 1.XII.2005 р.
ВАК № 1769 від 12.XII.2005 р.
Львів-2009
ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ВИКОРИСТАННЯ РЕГУЛЯРНИХ ВИРАЗІВ ДЛЯ ОБРОБКИ ТЕКСТУ.Методичні вказівки до лабораторної роботи № 3 з дисципліни “Комп’ютерна лінгвістика ” для студентів спеціальності 7.030.505 “Прикладна лінгвістика” та магістрів за фахом 8.030.505 “Прикладна лінгвістика” для стаціонарної та заочної форм навчання/Укл. А.Б.Романюк. - Львів: Національний університет ”Львівська політехніка”, 2009. - 21с.
Укладачі: Романюк а. Б., канд. Техн. Наук, ст. Викладач
Відповідальний за випуск: Лобур М. В., доктор технічних наук, професор
Рецензенти: Каркульовський В. І., канд. техн. наук, доцент
Шуневич Б.І., канд. філол. наук, доцент.
МЕТА РОБОТА
Вивчення основ програмування на мові Python.
Використання регулярних виразів для обробки текстів.
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
Виконанні цієї лабораторної роботи необхідно розпочати з:
|
>>> from __future__ import division >>> import nltk, re, pprint |
Використання регулярних виразів для виявлення слів за заданими шаблонами.
Багато задач лінгвістичних досліджень передбачають встановлення відповідності заданому шаблону. Наприклад, можна знайти слова, які закінчуються на “ed” використовуючи метод endswith('ed'). Подібні методи перевірки слів перелічені в Таблиці Методичних вказівок до лабораторної роботи №2. Регулярні вирази є більш потужним і гнучким методом опису шаблонів символів, які необхідно виявити у послідовностях символів. Регулярний вираз (вислів)(впрограмуванні) — церядокщо описує або збігається змножиноюрядків, відповідно до набору спеціальнихсинтаксичнихправил. Регулярні вислови використовуються в багатьохтекстових редакторахта допоміжних інструментах для пошуку та зміни тексту на основі заданих шаблонів.
Для роботи з регулярними виразами у Python потрібно імпортувати бібліотеку re скориставшись: import re. Корпус слів англійської мови Words Corpus буде використовуватися в якості лінгвістичних даних серед яких буде проводитися пошук. Попередня підготовка списку слів передбачає видалення власних імен.
|