
- •Напрям у лінгвістиці , який передував появі корпусної лінгвістики : від картотеки до корпусу
- •Історія створення лінгвістичних корпусів
- •Поняття репрезентативності корпусів.
- •Практика показує , що корпусні лінгвістика оперує як мінімум двома різними типами об'єктів ( корпусів текстів) :
- •Класифікація корпусів за різними ознаками.
- •Загальна характеристика особливих типів корпусів.
- •Корпуси усного мовлення
- •Проектування та технологічний процес створення корпусів.
- •Відбір джерел. Критерії відбору.
- •Основні процедури обробки природної мови.
- •Поняття розмітки.
- •Стандартизація в корпусній лінгвістиці.
Проектування та технологічний процес створення корпусів.
Проект будь-якого корпусу повинен передбачати етапи його створення та шляхи його подальшого розвитку . Поняття корпусу є продовженням традиційних картотек , з якими завжди працювали лінгвісти . У XX столітті ці картотеки стали комп'ютерними і загальнодоступними . Значно ¬ ву роль у становленні корпусного підходу зіграла мережу Інтер ¬ ні, в процесі розвитку якої стали доступні великі обсяги текстового матеріалу , придатного для проведення різних лінгвістичних досліджень . При цьому постає традиційне питання про репрезентативність і збалансований -ності мовного матеріалу (див. п. 1.4.1 ) , який кладеться в основу словників і граматик . Особливо гостро це питання постає при формуванні національних корпусів. Репрезентативність корпусу повинна забезпечуватися як достатнім обсягом тексто ¬ вого матеріалу , так і його різноманітністю.
Крім жанрово- тематичної структури належить вирішити також безліч інших , приватних , але важливих питань , таких як:
1 . Що є текстом в корпусі ? Наприклад , невеликі оголошення в газетах - чи включаються вони в корпус як окремих ¬ ні тексти або їх можна об'єднувати ?
2 . Чи є текстом стаття в газеті ? Або один випуск газети потрібно розцінювати як один текст?
3 . Що є окремим текстом - збірка віршів або кожний вірш ?
4 . Чи є окремим текстом кожен лист в опублікованому листуванні , де авторами листів є двоє , але листи утворюють єдиний дискурс , або сукупність цих листів ?
Не менш важлива і проблема хронології. Що слід розуміти під корпусом сучасної російської мови ? Поставши ¬ ляется , що хронологічні рамки корпусу повинні бути різними для різних жанрів.
Корпус створюється для широкого кола користувачів і для вирішення різноманітних завдань , у тому числі і досить « екзоти -чеських » , наприклад , для дослідження російськомовних текс ¬ тів , ис -користь іншомовну графіком. Що з вихідних текстів залишається в корпусі , а що « вичищається » ? Очевидно , наприклад , що картинки не відносяться до мовного матеріалу і можуть бути видалені. Складніше йде справа з таблицями і , тим більше, з цитатами , прямою мовою , іншомовними вкрапленнями , одиницями виміру ¬ ня .
Всі ці питання мають бути поставлені на етапі проектування. Вирішуватися ж вони , принаймні , деякі з них , можуть поступово в процесі створення і дослідної експлуатації корпусу. Для цього з самого початку експлуатації слід передбачити зворотний зв'язок з користувачами.
Технологічний процес створення корпусу можна представити у вигляді наступних кроків або етапів:
1 . Забезпечення надходження текстів відповідно з переліком джерел.
2 . Перетворення в машиночитаемую форму. Тексти в електронному вигляді для створення корпусів можуть бути отримані самими різними способами - ручне введення , сканування , авторські копії , дари і обмін , Інтернет , оригінал- макети , що надаються видавництвами укладачам корпусів та ін
3 . Аналіз і попередня обробка текстів. На цьому етапі всі тексти , отримані з різних джерел , проходять філологічну вивірку і коригування . Підготовка «технологічного » описи включає в себе бібліографічне та екстралінгвістичні опису тексту.
4 . Конвертація і графематіческій аналіз . Деякі тексти проходять також через один або кілька етапів попередньої машинної обробки , в ході яких здійснюється перекодування (якщо потрібно) , а також видалення або перетворення нетекстових елементів (малюнки , таблиці ), видалення з тексту переносів , « жорстких кінців рядків » ( тексти з MS -DOS) , забезпечення однакового написання тире і т.д. Графематіческій аналіз передбачає проведення наступних операцій : поділ вхідного тексту на елементи (слова , роздільники й т.д. ), видалення нетекстових елементів , виділення та оформлення нестандартних ( нелексіческіх ) елементів , обробка спеціальних текстових елементів ( імен (ім'я , по батькові) , написаних ініціалами , іноземних лексем , записаних латиницею , назв малюнків , приміток , сторінок форзаца , закреслень , титульних аркушів , списків літератури і т.д.). Як правило , ці операції виконуються в автоматичному режимі. Зазвичай на цьому ж етапі здійснюється сегментування тексту на його структурні складові.
5 . Розмітка тексту. Розмітка тексту полягає в приписуванні текстам і їх компонентам додаткової інформації ( метаданих) . Метадані можна поділити на 3 типи: екстралінгвістичні , що відносяться до всього тексту ; дані про структуру тексту; лінгвістичні метадані, що описують елементи тексту. Метаописания текстів корпусу включає як змістовні елементи даних ( бібліографічні дані , ознаки, що характеризують жанрові та стильові особливості тексту , відомості про автора ) , так і формальні (ім'я файлу , параметри кодування , версія мови розмітки , виконавці етапів робіт). Ці дані зазвичай вводяться вручну. Структурна розмітка документа (виділення абзаців , пропозицій , слів) і власне лінгвістична розмітка зазвичай здійснюються автоматично.
6 . Коригування результатів автоматичної розмітки : виправлення помилок і зняття неоднозначності (вручну або напівавтоматично ) .
7 . Конвертація розмічених текстів в структуру спеціалізованої лінгвістичної інформаційно-пошукової системи ( corpus manager ) , що забезпечує швидкий багатоаспектний пошук та статистичну обробку (заключний етап) .
8 . Забезпечення доступу до корпусу. Корпус може бути доступний в межах дисплейного класу , може поширюватися на компакт- диску і може бути доступний в режимі глобальної мережі . Різним категоріям користувачів можуть надаватися різні права і різні можливості.
9 . Створення документаційного забезпечення , в якому описуються різні аспекти створення і використання корпусу , зокрема , наводяться відомості про розмітку , дозволяють шукати по метаданих , мова запитів корпус -менеджера і т.д.
Звичайно , у кожному конкретному випадку склад і кількість проце ¬ дур можуть відрізнятися від перерахованих вище , і реальна технологія може виявитися набагато складніше. Розглянемо деякі етапи більш детально