Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Відповіді на модуль з Кульчицького.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
51.43 Кб
Скачать

13. Лінгвістична розмітка

Серед лінгвістичних типів розмітки можна виділити: морфологія, синтаксична, семантична, анафорчина, просодична, дискурсна и др. Всі вони здійснюються відповідно до таких принципів:

1) опис (обгрунтування) схеми розмітки; 2) загальноприйнята система лінгвістичних понять; 3) відома для користувача схема аналізу; 4) вмотивованість введення параметрів; 5) теоретично нейтральна (традиційна) схема розмітки; 6) слідування міжнародним стандартам.

14. Екстралінгвістична розмітка, або МЕТАДАНІ, включає в себе:

«зовнішню»

«інтелектуальну» розмітку (бібліографічні характеристики, типологічні характеристики, тематичні характеристики, соціологічні характеристики)

«формальну» структурну розмітку (текст, розділ, глава, частина, абзац, речення)

техніко-технологічну розмітку (кодування, дати обробки, виконавців, джерело електронної версії).

Набір метаданих в чому визначає можливості, надані корпусами дослідникам. При виборі цих даних необхідно керуватися цілями дослідження і потребами лінгвістів, а також можливостями щодо внесення в текст тих чи інших додаткових ознак. «Зовнішня», «інтелектуальна» розмітка потрібна, по-перше, для виявлення взаємозв'язку мови й умов його існування, по-друге, для вивчення окремих підмножин мови. Виділяють два класи факторів, що впливають на мову текстів: • зовнішні, позамовні чинники (E - external); • внутрішні фактори (I - internal). Дж. Сінклер виділяє три групи E-факторів: • Е1 (origin) - фактори, що стосуються створення тексту автором; • E2 (state) - фактори, пов'язані з зовнішніми ознаками тексту (включаючи усну або письмову мову); • Е3 (aims) - фактори, пов'язані з причин створення тексту і його впливу на аудиторію і дві групи I-факторів: • I1 (topic) - предметна область тексту; • I2 (style) - стилістичні особливості (стиль, жанр) У НКРЯ, наприклад, використовується наступний набір метаданих: Перший блок: 1) автор тексту: ім'я, стать, дата народження (приблизний вік); 2) назва тексту; 3) час і місце створення тексту (може вказуватися точно або приблизно); 4) обсяг тексту: для художніх творів прийнято, що звичайна довжина розповіді - менше 5 тис. слів; звичайна довжина повісті - від 5 до 15 тис. слів; звичайна довжина роману - більше 15 тис. слів. Другий блок: параметри метаопису трьох основних масивів текстів корпусу - художніх текстів; нехудожніх текстів; драматургічних творів. ПРИКЛАД: древній Схід продукт, Росія XVII століття; Росії XIX століття продукт, Росія / СРСР: радянський період в цілому; Росія, радянський період - Німеччина 1920-1940-ті роки продукт, Росія / СРСР - Європа 1960-1980-ті роки продукт, Росія / СРСР: перебудова продукт, Росія / СРСР: радянський і пострадянський період; Америка: сучасне життя; Ізраїль: сучасне життя; Середня Азія: сучасне життя; ірреальний світ та ін Також може зустрітися тег «хронотоп не визначений». Службова, або «імпліцитна», метарозмтка в НКРЯ включає: 1) «текст-стиль», при цьому виділяються академічний, науково-популярний, офіційно-діловий, нейтральний, знижений, знижений з елементами грубого просторіччя і жаргону, архаїзованого, індивідуально-авторський, діалектна і пр. (всього 21); 2) аудиторія - вік; 3) аудиторія - рівень освіти; 4) аудиторія - розмір (більш докладно див http://ruscorpora.ru/corpora-parameter.html)