
- •1. Основні поняття корпусної лінгвістики
- •2. Напрями у лінгвістиці, що передували появі корпусної лінгвістики: від картотеки до корпусу.
- •3. Історія створення лінгвістичних корпусів
- •4. Поняття репрезентативності корпусів
- •6. Загальна характеристика особливих типів корпусів
- •7. Загальна характеристика паралельних корпусів
- •8. Загальна х-ка корпусів усної мови
- •9. Проектування та технологічний процес створення корпусів.
- •10. Відбір джерел. Критерії відбору
- •11. Основні процедури обробки природної мови
- •12. Розмітка, засоби розмітки
- •13. Лінгвістична розмітка
- •15.Стандартизація в корпусній лінгвістиці
9. Проектування та технологічний процес створення корпусів.
Проект будь-якого корпусу повинен передбачати етапи його створення та шляхи його подальшого розвитку. На етапі проектування повинні бути поставлені наступні питання: Питання про репрезентативності та збалансованості мовного матеріалу (див. п. 1.4.1), який кладеться в основу словників і граматик. Особливо гостро це питання постає при формуванні національних корпусів. Репрезентативність корпусу повинна забезпечуватися як достатнім обсягом текстового матеріалу, так і його різноманітністю. Крім жанрово-тематичної структури належить вирішити також безліч інших, приватних, але важливих питань, таких як: 1. Що є текстом в корпусі? Наприклад, невеликі оголошення в газетах - чи включаються вони в корпус як окре ¬ ві тексти або їх можна об'єднувати? 2. Чи є текстом стаття в газеті? Або один випуск газети потрібно розцінювати як один текст? 3. Що є окремим текстом - збірка віршів або кожне вірш? 4. Чи є окремим текстом кожен лист в опублікованому листуванні, де авторами листів є двоє, але листи утворюють єдиний дискурс, або сукупність цих листів? Не менш важлива і проблема хронології. Що слід розуміти під корпусом сучасної російської мови? Представляється, що хронологічні рамки корпусу повинні бути різними для різних жанрів. Вирішуються ці проблеми, принаймні, деякі з них, поступово в процесі створення і дослідної експлуатації корпусу. Технологічний процес створення корпусу можна представити у вигляді наступних кроків або етапів: 1. Забезпечення надходження текстів відповідно до переліку джерел. 2. Перетворення в машиночитаемую форму. 3. Аналіз та попередня обробка текстів. 4. Конвертування і графематіческій аналіз. 5. Розмітка тексту. Розмітка тексту полягає в приписуванні текстам і їх компонентів додаткової інформації (метаданих). 6. Конвертування розмічених текстів в структуру спеціалізованої лінгвістичної інформаційно-пошукової системи (corpus manager), що забезпечує швидкий багатоаспектний пошук і статистичну обробку (заключний етап). 7. Створення документаційного забезпечення, в якому описуються різні аспекти створення та використання корпусу, зокрема, наводяться відомості про розмітку, дозволяють шукати по метаданих, мова запитів корпус-менеджера і т.д.
10. Відбір джерел. Критерії відбору
Основними одиницями корпусів текстів можуть бути слововживання, основи та речення . Об’єм створеного корпуса залежить від цілі створення. У випадку вивчення частоти вживання букв, звуків т.д. він може бути невеликим. Набагато більшим він повинен бути у випадку вивчення стилістичних чи синтаксичних особливостей тексту. Щодо жанрів текстів, джерел текстів та часових проміжків, то розробники корпусів текстів зазвичай:
Консультуються з фахівцями у галузі лінгвостатистики чи мовознавства.
Проводять метод анкетування
Спершу спеціалісти визначають загальний об’єм корпусу текстів, час видання текстів, число текстів та розмір елементарної вибірки, жанри текстів та їх кількість, число елементарних вибірок з кожного жанру.