
- •Напрям у лінгвістиці , який передував появі корпусної лінгвістики : від картотеки до корпусу
- •Історія створення лінгвістичних корпусів
- •Поняття репрезентативності корпусів.
- •Практика показує , що корпусні лінгвістика оперує як мінімум двома різними типами об'єктів ( корпусів текстів) :
- •Класифікація корпусів за різними ознаками.
- •Загальна характеристика особливих типів корпусів.
- •Корпуси усного мовлення
- •Проектування та технологічний процес створення корпусів.
- •Відбір джерел. Критерії відбору.
- •Основні процедури обробки природної мови.
- •Поняття розмітки.
- •Стандартизація в корпусній лінгвістиці.
Корпусна лінгвістика - розділ комп'ютерної лінгвістики , що займається розробкою загальних принципів побудови та використання лінгвістичних корпусів ( корпусів текстів ) із застосуванням комп'ютерних технологій. Під лінгвістичним , або мовним , корпусом текстів розуміється великий , представлений в машино читабельному вигляді , уніфікований , структурований , розмічений , філологічно компетентний масив мовних даних , призначений для вирішення конкретних лінгвістичних завдань. В даний час існує безліч визначень поняття « корпус». Наприклад , визначення, наведене в підручнику Е. Фінегана , говорить: корпус - репрезентативне зібрання текстів , зазвичай в машиночитаемом форматі і включає інформацію про ситуацію , в якій текст був проведений , таку як інформація про котра говорить , автора , адресата або аудиторії [42]. Вікіпедія визначає корпуси як великі та структуровані набори текстів (тепер звичайно в електронному вигляді) , які використовуються для статистичного аналізу та перевірки гіпотез , перевірки випадків зустрічальності або обгрунтування мовних правил за певними областям [62]. Т. Мак Енері і Е. Вілсон дають таке визначення : корпус - це зібрання мовних фрагментів , відібраних відповідно до чіткими мовними критеріями для використання як моделі мови [51]. В.В. Риков визначає корпус текстів як деякий зібрання текстів , в основі якого лежить логічний задум , логічна ідея, що об'єднує ці тексти і втілена в правилах організації текстів в корпус , алгоритмі та програмі аналізу корпусу текстів , поєднаної з цим ідеології та методології [31].
У наведених визначеннях підкреслюються основні риси сучасного корпусу текстів - мета ( « логічна ідея» ) , машиночитаний формат , репрезентативність як результат особливої процедури відбору , наявність металінгвістіческая інформації. Стандартизоване уявлення словесного матеріалу на машинному носії дозволяє застосовувати стандартні програми його обробки.
Доцільність створення і зміст використання корпусів визначається такими передумовами :1 ) досить великий ( репрезентативний ) об'єм корпусу гарантує типовість даних і забезпечує повноту представлення всього спектру мовних явищ ;
2 ) дані різного типу знаходяться в корпусі у своїй природній контекстної формі , що створює можливість їх всебічного та об'єктивного вивчення;
3 ) одного разу створений і підготовлений масив даних може використовуватися багаторазово , різними дослідниками і в різних цілях.
У поняття « корпус текстів » входить також система управління текстовими та лінгвістичними даними , яку останнім часом найчастіше називають корпусним менеджером ( або корпус - менеджером) (англ. corpus manager ) . Це спеціалізована пошукова система, що включає програмні засоби для пошуку даних в корпусі , отримання статистичної інформації та надання користувачу результатів у зручній формі.
Пошук в корпусі дозволяє по будь-якому слову побудувати конкорданс - список всіх вживань даного слова в контексті з посиланнями на джерело. Корпуси можуть використовуватися для отримання різноманітних довідок і статистичних даних про мовних і мовленнєвих одиницях. Зокрема , на основі корпусів можна отримати дані про частоту словоформ , лексем , граматичних категорій , простежити зміну частот і контекстів в різні періоди часу , отримати дані про спільну зустрічальності лексичних одиниць і т.д. Представницький масив мовних даних за певний період дозволяє вивчати динаміку процесів зміни лексичного складу мови , проводити аналіз лексико- граматичних характеристик в різних жанрах і у різних авторів . Корпуси покликані служити також джерелом і інструментом багатоаспектних лексикографічних робіт з підготовки різноманітних історичних та сучасних словників. Дані корпусів можуть бути використані для побудови та уточнення граматик і в цілях навчання мови. Більш докладно можливості і приклади використання корпусів в лінгвістичних дослідженнях будуть розглянуті в розділі 3.3 .
Сьогодні корпусні лінгвістика часто розуміється як відносно новий підхід у лінгвістиці , який має справу з вивченням використання мови в « реальному житті » за допомогою комп'ютерів і електронних корпусів. Корпусні лінгвістика має , принаймні , дві риси , що дають їй підставу претендувати на становище самостійної дисципліни : 1 ) характер використовуваного словесного матеріалу; 2 ) специфіка інструментарію .
Якщо такі розділи лінгвістики як синтаксис , семантика і соціолінгвістика мають на меті опис або оцінку мовної структури або мовного використання , то корпусні лінгвістика є більш широким поняттям , методологією , яку можна застосувати до багатьох аспектів мовних досліджень . Корпусні лінгвістику іноді називають « пучком методів з різних областей лінгвістичних досліджень » [49]. Як метод лінгвістичного аналізу , корпусні лінгвістика пов'язана також з контрастивної дослідженнями , спрямованими на встановлення фактів загального та окремого між мовами , діалектами або варіантами мови в ході їх порівняльного вивчення [ 8 ] . Багато видів лінгвістичного аналізу найкращим чином розвиваються на міцній і великій базі емпіричних даних.
Е. Фінеган визначає корпусні лінгвістику як діяльність , що вимагається для складання і використання корпусу , спрямовану на дослідження природного вживання мови [42]. У цьому визначенні підкреслюється творча спрямованість корпусної лінгвістики . Двоїстий характер корпусної лінгвістики ( націленість як на створення , так і на використання корпусів текстів) обумовлюється двоїстим характером її об'єкта - корпуси текстів , який , з одного боку , являє собою вихідний мовний матеріал для корпусної лінгвістики і для інших лінгвістичних дисциплін , з іншого боку , є результатом діяльності корпусної лінгвістики .
Можна сказати , що корпусні лінгвістика має своїм предметом теоретичні засади та практичні механізми створення і використання представницьких масивів мовних даних , призначених для лінгвістичних досліджень в інтересах широкого кола користувачів.
Існує проблема , пов'язана з термінологією корпусної лінгвістики в російській мові , яка поки не встановилася в силу наступних причин : її відносно недавнє походження і її зародження в США і Великобританії , що зумовила той факт , що термінологія складалася і продовжує складатися в надрах англійської мови. Російські терміни , в основному , являють собою запозичення англійських термінів ; деякі з них в інших значеннях давно існують в російській мові . Так , російське слово «корпус» стало багатозначним задовго до своєї появи в якості терміна корпусної лінгвістики . Вживання форм цього іменника є проблематичним , оскільки можливі варіанти множини « корпуси » і « корпусу» . Для значення « масив» , яке має місце у випадку мовних корпусів , називний відмінок множини має бути « кóрпуси » і, відповідно , прикметник має вимовлятися з наголосом на першому складі - « кóрпусний » (Великий тлумачний словник російської мови , СПб. , 1998 ) . У той же час аналіз узусу фахівців поки свідчить на користь форм « корпусá » , « корпуснóй » , « корпуснáя » , які використовуються часто , так що можна , мабуть , з обережністю сказати , що в даний час це питання залишається відкритим. У Додатку 2 наведені деякі термінологічні сполучення і однослівні терміни , виділені з корпусу текстів по корпусних лінгвістиці .Правила , що регламентує вживання тієї чи іншої форми стосовно до корпусних лінгвістиці , поки немає, хоча , як видається , перемогти повинен варіант « корпуси » , оскільки він відрізняє термінологічне значення слова від його загальновживаного значення. У цьому підручнику автори будуть використовувати саме цей варіант.
Напрям у лінгвістиці , який передував появі корпусної лінгвістики : від картотеки до корпусу
Корпусні лінгвістика може бути представлена у вигляді набору методів , процедур і ресурсів , що мають справу з емпіричними даними в лінгвістиці . Підйом сучасних корпусних лінгвістики як методології тісно пов'язаний з історією лінгвістики як емпіричної науки .
Технології , які застосовуються в корпусних лінгвістиці , набагато старше електронних комп'ютерів : багато хто з них кореняться в традиції кінця XVIII і XIX століть , коли лінгвістика вперше була проголошена «реальної» , або емпіричною наукою . З численних областей лінгвістичних досліджень , які лягли в основу корпусної лінгвістики , тут будуть розглянуті три . Використані в цих трьох областях технології вплинули на розвиток сучасної корпусної лінгвістики , і навпаки [49].
1 . Історична лінгвістика : зміни в мові та реконструкція ( порівняльно- історичний метод). Одне з головних напрямків , що вплинули на сучасну корпусні лінгвістику , прийшло з порівняльно- історичного мовознавства . Це не дивно , оскільки лінгвісти, які вивчали історичними дослідженнями , завжди використовували тексти або зборів текстів як основні свідоцтва . Багато технологій , розвинені в XIX столітті для реконструкції більш давніх мов ( прамови ) або встановлення зв'язків між мовами , використовуються і по теперішній час. В індоєвропейській традиції вивчення мовних змін і спроби реконструкції залежали від ранніх текстів чи корпусів ( історичних пам'ятників) . Я. Грімм і пізніше младограмматики підтримували свої твердження про історію і граматиці мов цитатами з текстів . Младограмматики у своєму маніфесті проголосили , що вони провели дослідження сучасної мови , зафіксованого в діалектах (а не тільки дослідження стародавніх текстів) , і це також мало величезне значення .
Багато ідей і технології , що розвиваються з XIX століття , були застосовані і потім розвинені корпусних лінгвістикою . Складання історичних корпусів і раніше представляє великий інтерес. Дійсно , серед перших корпусів , доступних в електронному вигляді , були і історичні корпуси .
Поява величезної кількості текстів , доступних в електронному форматі , зробило можливим відносно швидкий збір величезної кількості даних . Це надало можливість лінгвістам виграти за рахунок статистичних методів у лінгвістичному аналізі , а також розробити і розвинути нові методи і моделі для досліджень. Сьогодні математично складні моделі мовних змін можуть бути обчислені за допомогою даних з електронних корпусів.
2 . Написання граматик , лексикографія і навчання мові . Граматисти XIX століття ілюстрували свої твердження прикладами , взятими з творів визнаних авторів . Наприклад , Г. Пауль у своїй німецької граматики використовував твори німецьких «класиків» для ілюстрації кожного свого твердження - в галузі фонології , морфології та синтаксису. Сьогодні укладачі граматик можуть також використовувати корпусний підхід , але тепер корпуси включають не тільки класику , а й будь-які інші типи текстів. Зокрема , великий інтерес проявляється зараз до граматики усного мовлення. У граматичних описах мови можна використовувати корпуси для отримання інформації про частотності характеристик використання різних варіантів , регістрів і т.д.
Візьмемо деякі ранні приклади з лексикографії . У середині XVIII століття , коли С. Джонсон писав тлумачний словник англійської мови ( Dictionary of the English language , 1755 ) , він вибирав з книг ілюстративні пропозиції , які називав цитатами , щоб показати на прикладах , як слова були використані англійськими авторами. Під час читання Джонсон маркував пропозиції , контекст яких робив значення слова особливо зрозумілим. Його асистенти потім виписували зазначені пропозиції на аркуші паперу , і Джонсон розподіляв їх для складання та ілюстрації словникових статей у словнику. Проект під керівництвом сера Джеймса Муррея (Оксфордський словник англійської мови - OED ) зажадав тисячі читачів і півстоліття для складання .
Багато словники мертвих мов давали цитати з текстів , що містять слово в контексті. У сучасних корпусних лінгвістиці цей метод паралельний по формі конкорданси KWIC ( Key Word In Context ) . Незважаючи на те , що комп'ютери полегшили пошук та класифікацію прикладів і виділення багатослівних одиниць , ідеї використання текстів з корпусу все ще дуже схожі з тими , що використовувалися ранніми лексикографами і філологами , що не мали доступу до комп'ютерних технологій .
Традиційні шкільні граматики й підручники часто проілюстровані штучно складеними чи відредагованими прикладами мовного використання. У майбутньому вони мало чим зможуть допомогти студентам , які рано чи пізно зіткнуться з реальними мовними даними в своїх завданнях або в реальному спілкуванні . У цьому відношенні корпуси як джерела емпіричних даних відіграють важливу роль в лінгводидактики . При навчанні мови корпуси забезпечують джерело для пробудження у студентів інтересу і залучення їх у самостійне вивчення автентичного мовного використання. Важливе вживання корпусних даних - Computer- Assisted Language Learning ( CALL ), де засноване на корпусі програмне забезпечення використовується для підтримки інтерактивної навчальної діяльності , виконуваної студентами за допомогою комп'ютера.
3 . Соціолінгвістика : мовне різноманіття . Врятовано лінгвістика почалася з складання карт діалектів і збірників діалектних виразів в останній третині XIX століття. Її методи були схожі на методи , що використовувалися в той час історичної лінгвістикою , з однією суттєвою відмінністю : корпуси діалектів систематично складалися за певними критеріями . Ймовірно , це можна розглядати як провісник все ще триваючої дискусії про те , що включати в корпус. В даний час електронні корпуси часто використовуються в дослідженнях мовного різноманіття (наприклад , діалектів , соціолектів , регістрів ) . Математичні методи (наприклад , мультифакторний аналіз) повністю покладаються на доступність таких даних.
Сучасна корпусні лінгвістика використовує і розвиває ці методи . Багато досліджень і результати можливі тільки із застосуванням великих обсягів доступних в електронному вигляді текстів і сучасної комп'ютерної техніки. Розвиток сучасних інтелектуальних програмних систем , призначених для обробки текстів природної мови , також вимагає великої експериментальної лінгвістичної бази. Попит на корпусні дані збігся з появою відповідних технічних можливостей .