
Зміст звіту
5.1 Титульний аркуш.
5.2 Мета роботи.
5.3 Короткі теоретичні відомості.
5.4 Тексти програм на мові Python.
5.5 Висновок.
ЛІТЕРАТУРА
Steven Bird, Ewan Klein, Edward Loper Introduction to Natural Language Processing. 2001-2007 University of Pennsylvania.
Г. Россум, Ф.Л.Дж. Дрейк, Д.С. Откидач, М. Задка, М. Левис, С.Монтаро, Э.С.Реймонд, А.М.Кучлинг, М.-А.Лембург, К.-П.Йи, Д.Ксиллаг, Х.ГПетрилли, Б.А.Варсав, Дж.К.Ахлстром, Дж.Рокинд, Н.Шеменон, С.Мулендер. Язык программирования Python./ 2001 – 452c.
Сузи Р. А. Язык программирования Python.- 206с.
David Mertz Text Processing in Python Addison WesleyBiber, 2003 - 544.
Інтернет посилання
http://www.nltk.org
http://python.org
ДОДАТОК А
Сьогодні ми вивчили:
from __future__ import division |
Імпортування модуля для роботи з числами з плаваючою крапкою |
urlopen(url).read() |
Функція відкривання та читання файла за адресою url |
nltk.word_tokenize(raw) |
токенізація тексту raw |
nltk.Text(tokens) |
Перетворення тексту tokensвNLTK текст |
raw.find |
Знайти стрічку в raw |
raw.rfind |
Знайти стрічку в raw. Пошук здійснювати з кінця. |
nltk.clean_html(html) |
Очистити текст від html розмітки. |
open('document.txt') |
Відкрити файл |
f.read() |
Прочитати файл |
os.listdir('.') |
Встановити вміст директорії |
line.strip() |
Обрізати стрічку по останньому символу |
nltk.data.find('corpora/gutenberg/melville-moby_dick.txt') |
Знайти місцезнаходження файлу |
open(path, 'rU').read() |
Відкрити файл за вказаним шляхом для читання і прочитати його. Різні способи маркування нового рядка ігноруються |
raw_input("Enter some text: ") |
Ввести текст з клавіатури |
codecs.open(path1, encoding='latin2') |
|
ord('a') |
|
line.encode('unicode_escape') |
|
nltk.PorterStemmer() |
Модуль Porter стемера |
nltk.LancasterStemmer() |
Модуль Lancaster стемера |
nltk.WordNetLemmatizer() |
Модуль WordNet лематизатора |
nltk.data.load('tokenizers/punkt/english.pickle') |
|
sent_tokenizer.tokenize(text) |
Сегментувати текст на окремі речення |
open('output.txt', 'w') |
Відкрити файл для запису |
output_file.write(word + "\n") |
Записати у файл word та символ початку нового рядка |
НАВЧАЛЬНЕ ВИДАННЯ
Методичні вказівки
до лабораторної роботи № 3
з дисципліни “Комп’ютерна лінгвістика”
для студентів спеціальності 7.030.505 “Прикладна лінгвістика”
та магістрів за фахом 8.030.505 “Прикладна лінгвістика”.
для стаціонарної та заочної форм навчання
Укладачі: Романюк Андрій Богданович