Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
корпусна теорія 2.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
70.88 Кб
Скачать

Поняття розмітки.

Серед спеціальних програм для обробки природної мови особливе місце займають програми автоматичної розмітки. Розмітка корпусів ( tagging , annotation ) являє собою трудомістку операцію , особливо врахо ¬ вая розміри сучасних корпусів. Якщо для деяких видів розмітки , зокрема , анафорической , просодичною , створення автоматичних систем поки представляється досить складним і основна частина роботи проводиться вручну , то для морфологічного та синтаксичного аналізу існують різні програмні засоби , які прийнято називати відповідно теггера ( taggers ) і парсери ( parsers ) . В результаті роботи програм автоматичного морфологич ¬ ського аналізу ( теггера ) кожної лексичної одиниці приписуються граммати ¬ че- ські характеристики , включаючи частина мови , лемму і набір граммем (наприклад , рід , число , відмінок , натхненність / неодушевленность , перехідність і т.д. ) . В результаті роботи програм автоматичного синтаксичного аналізу фіксуються сін ¬ таксіческіе зв'язку між словами і словосполученнями , а синтаксич ¬ ським одиницям приписуються відповідні характеристики ( тип пропозиції , синтаксична функція словосполучення і т.д.).

Однак автоматичний аналіз природної мови небезошібо -чен і багатозначний - він , як правило , дає кілька варіантів аналізу для однієї лексичної одиниці (слова , словосполучення, речення) . У цьому випадку говорять про граматичної омонімії . Зняття неодно ¬ значности ( морфологічної , синтаксичної ) в цілому є однією з найважливіших і найскладніших задач комп'ютерної лінгвістики. При створенні корпусів для зняття неоднозначності використовуються автома ¬ тичні і ручні способи . Корпуси нового покоління включають сотні мільйонів слів, тому висуваються принципи розробки систем , які б мінімізували втручання людини. Автома ¬ тичні дозвіл морфологічної або синтаксичної неоднозначності , як правило , грунтується на використанні інформації більш високого рівня ( синтаксичного , семантичного ) із застосуванням статистичних методів .

Для вирішення різних лінгвістичних завдань недостатньо мати масив текстів. Потрібна також , щоб тексти містили в собі явним чином зазначену різного роду додаткову лінгвістичну та екстралінгвістичну інформацію. Так , на матеріалі корпусу , подібного брауновского , можна легко виявити частотність слів - їх регулярне вживання в певних контекстах. Однак це буде частотність токенов ( словоформ ) . Для визначення частоти лексем кожному слову повинна бути приписана її лема .

Для підрахунку частот в розрізі граматичних категорій вони також повинні бути марковані. У корпусі , забезпеченому такою інформацією , іменники мають , наприклад , тег noun , дієслова - тег verb і т.д. Крім іншого , такі теги дозволяють вивчати групові характеристики слів, що мають певну посліду. Якщо постачати тегами слова у великому корпусі вручну , це займе дуже багато часу , тому дослідники розробили способи автоматичної розмітки в корпусі. Один з простих способів полягає в тому , щоб комп'ютеризований словник , в якому зазначені лексичні категорії для найпоширеніших слів або для найбільшої кількості слів , поєднати з нерозмічену корпусом. Потім кожному слову в нерозмічену корпусі може бути автоматично привласнений тег від відповідного йому слова в забезпеченому позначками словнику . Таким чином , якщо словоформи information і distribution з'явилися і в корпусі, і в словнику , тег ' noun ' , який супроводжував ці словоформи в словнику , автоматично буде перенесений на них в корпусі. Подібно до цього , такі форми як lexical і frequent будуть позначені як прикметники , оскільки вони завжди є членами цієї категорії , the і a будуть позначені як артиклі , identify і see - як дієслова і т.д. [42].

Цей процес знаходження відповідних форм в корпусі і в забезпеченому позначками словнику не може бути використаний для визначення категорій всіх форм , тому що деякі форми можуть бути членами більш ніж однієї категорії . Ця проблема носить назву «проблема морфологічної неоднозначності ( ambiguity ) ». Наприклад , слова words , forms , can , use , present і process можуть бути як іменниками , так і дієсловами . Оскільки в англійській мові так багато форм належить більш ніж однієї категорії , точно розмітити слова можна завдяки більш складним процедурам , ніж автоматичне суміщення зі словником . Звичайно , в контексті (тобто в дійсному використанні ) словоформа належить тільки одній категорії. Отже , досягти точної розмітки англійської корпусу можна шляхом аналізу контексту або аналізу більш високого рівня: синтаксичного аналізу для морфологічної розмітки , семантичного - для синтаксичної .

Візьмемо слово deal як приклад. Як словоформа , воно може бути як іменником , так і дієсловом . Припустимо , що корпус містив фразу a good deal of trouble , і припустимо , що автоматичне суміщення зі словником вже дозволило помітити good як прикметник . При виборі між тим , чи передує прикметник іменника або дієслова , набагато надійніше вибрати іменник , оскільки в англійській мові прикметники зазвичай передують іменником і зазвичай не передують дієсловам . Так , deal в a good deal of trouble може бути позначено як іменник . Іншими словами , оскільки good однозначно є прикметником , воно буде позначено як adjective на початковому рівні постачання позначками шляхом суміщення корпусу зі словником . Якщо починати розмітку , размечая тільки слова , що належать виключно однієї категорії , а потім використовувати цю інформацію для того , щоб прояснити неоднозначні випадки , багато складних проблем зможуть бути вирішені. У звичайній практиці трапляється так , що слова забезпечуються позначками спочатку для всіх частин мови , до яких вони можуть ставитися , а потім категорії примикають слів використовуються для визначення категорії слів , у яких є кілька послід .

Отже , розмітка полягає в приписуванні текстам і їхніх компонентів спеціальних тегів : власне лінгвістичних , що описують лексичні , граматичні та інші характеристики елементів тексту , і зовнішніх , екстралінгвістичних (відомості про автора і відомості про текст : автор , назва , рік і місце видання , жанр , тематика )

Лінгвістична розмітка

Среди лингвистических типов разметки выделяются: морфологическая, синтаксическая, семантическая, анафорическая, просодическая, дискурсная и др. Все они осуществляются в соответствии со следующими принципами:

  1. описание (обоснование) схемы разметки;

  2. общепринятая система лингвистических понятий;

  3. известная для пользователя схема анализа;

  4. мотивированность введения параметров;

  5. теоретически нейтральная (традиционная) схема разметки;

  6. следование международным стандартам.

Екстралінгвістична розмітка.

Екстралінгвістичні розмітка , або метадані, включає в себе « зовнішню» , « інтелектуальну » розмітку ( бібліографічні характеристики , типологічні характеристики , тематичні характеристики , соціологічні характеристики), « формальну » структурну розмітку (текст , розділ , глава , частина , абзац, речення ) , а також техніко - технологічну розмітку ( кодування , дати обробки , виконавців , джерело електронної версії). Набір метаданих в чому визначає можливості, надані корпусами дослідникам . При виборі цих даних необхідно керуватися цілями дослідження і потребами лінгвістів , а також можливостями щодо внесення в текст тих чи інших додаткових ознак .

«Зовнішня » , «інтелектуальна » розмітка потрібна , по-перше , для виявлення взаємозв'язку мови й умов його існування , по-друге , для вивчення окремих підмножин мови . Виділяють два класи факторів, що впливають на мову текстів :

• зовнішні , позамовні чинники ( E - external ) ;

• внутрішні фактори ( I - internal ) .

Дж. Синклер виділяє три групи E -факторів :

• Е1 ( origin ) - фактори , що стосуються створення тексту автором;

• E2 ( state ) - фактори , що відносяться до зовнішніми ознаками тексту ( включаючи усну або письмову мову ) ;

• Е3 ( aims ) - фактори , що віднос до причин створення тексту і його впливу на аудиторію

і дві групи I -факторів :

• I1 ( topic ) - предметна область тексту;

• I2 ( style ) - стилістичні особливості ( стиль , жанр) [57].

У НКРЯ , наприклад , використовується наступний набір метаданих :

Перший блок :

1 ) автор тексту: ім'я, стать , дата народження (або приблизний вік) ;

2 ) назва тексту;

3 ) час і місце створення тексту ( може вказуватися точно або приблизно) ;

4 ) обсяг тексту: для художніх творів прийнято, що звичайна довжина розповіді - менше 5 тис. слів ; звичайна довжина повісті - від 5 до 15 тис. слів ; звичайна довжина роману - більше 15 тис. слів.

Другий блок : параметри метаописания трьох основних масивів текстів корпусу - художніх текстів ; нехудожніх текстів ; драматургічних творів. Наприклад , для художніх текстів у НКРЯ вказується :

1 ) жанр тексту: нежанровим проза , автобіографічна проза , детектив , дитяча література , історична проза , кримінальна література , пригоди , фантастика , гумор і сатира ;

2 ) тип тексту: автобіографічна проза , анекдот , ассоциа ¬ тивная проза , бойовик , детектив , нарис , літературне лист , повість , притча , п'єса , розповідь , роман , казка , трилер , епопея , есе та ін;

3 ) хронотоп тексту: приблизне вказівка ​​на місце і час описуваних у тексті подій [27].

Реально пропонується наступне : древній Схід; Росія XVII століття ; Росія XIX століття ; Росія / СРСР: радянський період в цілому; Росія , радянський період - Німеччина 1920-1940 - і роки; Росія / СРСР - Європа 1960-1980- і роки; Росія / СРСР: перебудова ; Росія / СРСР: радянський і пострадянський період ; Америка : сучасне життя ; Ізраїль : сучасне життя ; Середня Азія : сучасне життя ; ірреальний світ та ін Також може зустрітися тег « хронотоп не визначений ».

Службова , або « імпліцитно » , метаразметка в НКРЯ включає:

1 ) «текст -стиль » , при цьому виділяються академічний , науково -популярний , офіційно -діловий , нейтральний , знижений , знижений з елементами грубого просторіччя і жаргону , архаізованний , індивідуально - авторський , діалектна та ін (всього 21 ) ;

2 ) аудиторія - вік ;

3 ) аудиторія - рівень освіти;

4 ) аудиторія – розмір

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]