
- •1. Основні поняття корпусної лінгвістики
- •2. Напрями у лінгвістиці, що передували появі корпусної лінгвістики: від картотеки до корпусу.
- •3. Історія створення лінгвістичних корпусів
- •4. Поняття репрезентативності корпусів
- •6. Загальна характеристика особливих типів корпусів
- •7. Загальна характеристика паралельних корпусів
- •8. Загальна х-ка корпусів усної мови
- •9. Проектування та технологічний процес створення корпусів.
- •10. Відбір джерел. Критерії відбору
- •11. Основні процедури обробки природної мови
- •12. Розмітка, засоби розмітки
- •13. Лінгвістична розмітка
- •15.Стандартизація в корпусній лінгвістиці
11. Основні процедури обробки природної мови
Основні процедури обробки природної мови: токенізація, лемматізація, стеммінг, парсинг.
Токенізація, тобто розбиття потоку символів в природній мові на окремі значущі одиниці (токени, словоформи), є необхідною умовою для подальшої обробки природної мови.
Інша специфічна задача морфологічного аналізу - це лемматізація, тобто процес утворення первісної форми слова, виходячи з інших його словоформ. У багатьох мовах слово може зустрічатися в декількох формах з різними флексіями. Наприклад, англійське дієслово 'walk' може бути представлений наступними формами: 'walk', 'walked', 'walks', 'walking'. Базова форма, 'walk', зафіксована в словнику, називається лемою слова. Лемматізація являє собою процес групування різних флективних форм одного слова таким чином, щоб при аналізі вони оброблялися як одне слово.
Процес, дещо відмінний від лемматізаціі, називається стеммінгом, він полягає в знаходженні стеми (основи) слова. Різниця полягає в тому, що стеммер обробляє окреме слово без знання контексту, і, таким чином, не може диференціювати слова, які мають різні значення в силу віднесеність до різних частин мови.Наприклад, токені "better" відповідає лема "good", але це опускається при стеммінге. Лемма "walk" є базовою формою для токена "walking", і ця відповідність буде виявлена як при стеммінзі, так і при лемматізаціі.
Парсинг- це процес зіставлення лінійної послідовності лексем (слів, токенів) мови з його формальної граматикою. Результатом зазвичай є дерево залежностей (синтаксичне дерево).
12. Розмітка, засоби розмітки
Серед спеціальних програм для обробки природної мови особливе місце займають програми автоматичної розмітки. Розмітка корпусів (tagging, annotation) являє собою трудомістку операцію, особливо враховуючи розміри сучасних корпусів.
Розмітка (tagging, annotation) полягає в приписуванні текстам і їхніх компонентах спеціальних міток (tag, tags): зовнішніх, екстралінгвістичних (відомості про автора та відомості про текст: автор, назва, рік і місце видання, жанр, тематика; відомості про автора можуть включати не тільки його ім'я, але також вік, стать, роки життя та багато іншого. Це кодування інформації має назву метаразметка), структурних (глава, абзац, речення, словоформа) і власне лінгвістичних, що описують лексичні, граматичні та інші характеристики елементів тексту.
Отже, розмітка полягає в приписуванні текстам і їхніх компонентах спеціальних тегів: власне лінгвістичних, що описують лексичні, граматичні та інші характеристики елементів тексту, і зовнішніх, екстралінгвістичних (відомості про автора та відомості про текст: автор, назва, рік і місце видання, жанр, тематика).
Відзначимо, що саме анотація, або розмітка, — головна характеристика корпусу, яка і відрізняє його від електронних колекцій, бібліотек, енциклопедій, широко представлених в сучасному Інтернеті. Розмітка тексту — це приписування тексту певної інформації для зручнішого аналізу.
Існують різні типи розмітки:
метатекстова розмітка (автор, назва, дата створення, обсяг, тематика тексту і т. д.), яка характеризує текст в цілому;
структурна розмітка є інформацією про структуру тексту, яка дозволяє відокремити одне слово від іншого, виділити межі словосполучення, пропозиції, тексту;
лінгвістична розмітка полягає в приписуванні одиницям тексту певної лінгвістичної інформації (негативна пропозиція або питальне, управління або примикання і т. д.).
Як відомо, чим багатша і різноманітніша розмітка, тим вищою є наукова і навчальна цінність корпусу.
Загалом основними вимогами до корпусів є їх репрезентативність (достатнє та пропорційне представлення в корпусі текстів різних періодів, жанрів, стилів, авторів, тощо) та розмітка (екстралінгвістична та лінгвістична, що дозволяє вирішувати широке коло завдань, які може поставити перед собою дослідник, якщо розмітка виконана якісно і максимально повно). На жаль, на даний час жоден корпус, зокрема слов'янських мов, не відповідає усім цим вимогам, проте ведеться активна діяльність у цьому напрямку.