
- •1. Уточнення поняття прикладної лінгвістики і можливості застосування в ній комп'ютерних інформаційних технологій
- •2.1. Програми аналізу та лінгвістичної обробки текстів
- •2.2. Програми для автоматичної обробки текстів:
- •2.3. Програми перетворення текстів
- •3. Використання лінгвістичних програм у дослідженні російськомовних і англомовних текстів.
- •4. Перспективні напрямки розвитку сучасної прикладної лінгвістики.
- •Література
Лекція 9. Використання комп’ютерних інформаційних технологій в прикладній лінгвістиці
1. Уточнення поняття прикладної лінгвістики і можливості застосування в ній комп'ютерних інформаційних технологій.
2. Основні лінгвістичні програми і ресурси, представлені в мережі Інтернет.
2.1. Програми аналізу та лінгвістичної обробки текстів.
2.2. Програми для автоматичної обробки текстів.
2.3. Програми перетворення текстів.
2.4. Психолінгвістичні програми.
3. Використання лінгвістичних програм у дослідженні російськомовних і англомовних текстів.
4. Перспективні напрямки розвитку сучасної прикладної лінгвістики.
1. Уточнення поняття прикладної лінгвістики і можливості застосування в ній комп'ютерних інформаційних технологій
Ми є свідками того, як розширюється інформатизація сучасного суспільства. У той же час переважна частина інформації існує у вигляді усних або письмових текстів природною мовою. Тому велике значення має обробка такої інформації. Дослідженням процесів і закономірностей запису, зберігання, переробки, передачі та використання інформації займається, як ми вже відзначали, наука інформатика. Природно, мається на увазі здійснення всіх цих процесів в основному за допомогою комп'ютера.
Прикладні сфери мовознавства здавна відрізнялися широкою різноманітністю. Найдавніші з них - письмо (графіка), методика навчання рідною і нерідною мовами, лексикографія. Надалі з'явилися переклад, дешифрування, орфографія, транслітерація, розробка термінології. Ці та інші (наприклад, участь у мовній політиці держави) сфери прикладного мовознавства (прикладної лінгвістики) є зараз традиційними напрямками досліджень.
Одночасно з розвитком і вдосконаленням класичних прикладних галузей мовознавства у другій половині XX ст. намітився і визначився ряд нових напрямків прикладної лінгвістики. Ці прикладні аспекти лінгвістичного забезпечення різноманітних сфер людської діяльності зводяться насамперед до однієї загальної проблеми – проблеми обробки інформації, що функціонує в суспільстві. Це і текстова інформація в її письмовому вигляді, і усне мовлення, як найбільш звичний спосіб комунікації. З'явилися нові прикладні завдання лінгвістики, пов'язані з автоматичною обробкою тексту (мови), з широким використанням ЕОМ, такі, як лінгвістичне забезпечення інформаційних систем різних типів; машинний переклад; комп'ютеризація навчання; розробка систем, що розуміють природну мову (лінгвістичні завдання в системах штучного інтелекту); розробка систем використання інформації, що міститься в звуковому мовленнєвому сигналі.
Нині істотно зростає значення прикладної лінгвістики, науки, що знаходиться на межі гуманітарної науки лінгвістики (мовознавства, що вивчає закони розвитку і користування засобом мислення і комунікації - мовою, - і комп'ютерного знання, за допомогою якого комп’ютеру передасться все більша частина інтелектуальної праці людини.
Термін «Прикладна лінгвістика», що з'явився в 30-40-х роках 20 століття, багатозначний. Наприклад, в Росії і в західних країнах існують різні інтерпретації. На Заході аналоги даного терміну (англ. applied linguistics, нім. angewandte Linguistik) використовуються насамперед, для позначення теорії і практики викладання іноземних мов, включаючи методику, особливості опису граматики для навчальних цілей і т.п. Наприклад, інститут в Дубліні, що носить назву School of Applied Languages (дослівно «Школа прикладних мов») фактично являє собою інститут іноземних мов. У СРСР термін «прикладна лінгвістика» одержав широке поширення в 1950-х роках у зв'язку з появою перших комп'ютерних систем автоматичної обробки текстової інформації (машинного перекладу, автоматичного реферування та ін.); саме тому в російськомовній літературі і понині замість терміна «прикладна лінгвістика» в тому ж значенні часто використовуються терміни «комп’ютерна лінгвістика», «обчислювальна лінгвістика», «автоматична лінгвістика», «інженерна лінгвістика».
Одні автори вважають назву «комп’ютерна лінгвістика» найбільш вдалою, щоб під нею розглянути актуальні проблеми і проблемні області лінгвістики, безпосередньо пов'язані з сучасним використанням комп'ютерів і програмного забезпечення, що впливають як на все мовознавство, так і на конкретні програми лінгвістики в цілях підвищення ефективності інформаційних систем і розвитку інформатики в цілому. Інші автори кажуть, що терміни «комп’ютерна лінгвістика», «обчислювальна лінгвістика», «автоматична лінгвістика», «інженерна лінгвістика» не цілком вдалими, оскільки кожна з перерахованих дисциплін має свій предмет і методи роботи в рамках прикладної лінгвістики як більш широкого напряму.
З функціональної точки зору, прикладна лінгвістика може бути визначена як навчальна дисципліна, в якій цілеспрямовано вивчаються і розробляються методи оптимізації різних сфер функціонування мовної системи. Функції мови задають точки відліку для класифікації величезної області додатків лінгвістичних знань. У оптимізацію комунікативної функції роблять внесок такі дисципліни, як теорія перекладу, машинний переклад, теорія і практика викладання української та нерідної мови, теорія і практика інформаційно-пошукових систем, створення інформаційних і, ширше, штучних мов, теорія кодування.
Тому акцентуємо увагу не назві дисципліни, а на її змісті.
Основними напрямками прикладної лінгвістики, пов'язаними з вивченням мови є: лексикографія - теорія і практика складання словників; лінгводидактика - наука про розробки методик навчання іноземної мови; термінознавство - наука про впорядкування і стандартизації науково-технічної термінології; перекладознавство - теорія перекладу.
Основні напрямки прикладної лінгвістики, пов'язані з практичними програмами:
1. Комп ’ ютерна лінгвістика (англ. computational linguistics).
2. Машинний переклад - напрямок наукових досліджень, пов'язаних з процесом перекладу текстів (письмових, а в ідеалі і усних) з однієї природної мови на іншу повністю спеціальною комп'ютерною програмою.
3. Автоматичне розпізнавання символів (англ. OCR) - призначені для автоматичного введення друкованих документів в комп'ютер.
4. Автоматичне розпізнавання мови (англ. ASR) - системи, які здійснюють фонемное декодування мовного акустичного сигналу
5. Автоматичний витяг даних (англ. Data Mining) - розпізнавання необхідних відомостей у певному обсязі інформації, виділення їх з цього обсягу інформації та занесення їх в базу даних в автоматичному режимі.
6. Автоматичне реферування текстів - засоби автоматичного реферування дозволяють розбити текст на безліч семантично цілісних фрагментів, що відображають основні теми документа, і виділити найбільш інформативні з них.
7. Інформаційний пошук - наука про пошук неструктурованої документальної інформації.
8. Формалізація мовних даних - автоматизація даних, формальна семантика, формальна граматика .
9. Створення електронних словників, тезаурусів, онтологій.
Названі проблеми включають в себе низку нових напрямків прикладної лінгвістики, пов'язаних з автоматичною обробкою тексту (мови), з широким використанням ЕОМ, таких, як лінгвістичне забезпечення інформаційних систем різних типів; машинний переклад; комп'ютеризація навчання; розробка систем, що розуміють природну мову (лінгвістичні завдання в системах штучного інтелекту); розробка систем використання інформації, що міститься в звуковому мовленнєвому сигналі.
Важливо відзначити, що знання комп'ютера, уміння поводитися з ним не вимагає засвоєння основ математики, що кожен філолог може стати основним учасником робіт зі створення комп'ютерних систем навчання, систем автоматичного аналізу і синтезу текстів, систем автоматичного пошуку, анотування, реферування та перекладу текстів.
В цілому прикладні аспекти лінгвістичного забезпечення різноманітних сфер людської діяльності зводяться, насамперед, до однієї загальної проблеми - проблеми обробки інформації, що функціонує в суспільстві. Це і текстова інформація в її письмовому вигляді, і усне мовлення як найбільш звичний спосіб комунікації.
Доданий нижче список основних термінів (понять) прикладної лінгвістики дає певне уявлення про предмет, напрямки, методи цієї науки сьогодні:
Алгоритм - послідовність дій, виконання яких необхідне для досягнення конкретної мети.
База даних - сукупність даних, представлених у формалізованому вигляді, зручному для автоматичної передачі, інтерпретації або обробки.
База знань - база даних, елементами яких є формалізовані представлення знань про елементи позамовної дійсності.
Байт - в обчислювальній техніці оброблюваний як єдине ціле елемент даних, який представляє собою послідовність двійкових розрядів (зазвичай - 8). Використовується як одиниця виміру пам'яті. При обробці та зберіганні текстів зазвичай одному байту відповідає один символ тексту.
Граматика залежностей - формальне подання побудови речення у вигляді ієрархії компонентів, між якими встановлено відношення залежності.
Граматика уявлень - система правил, заснована на обліку можливих оточень кожного слова.
Граф - математичний об'єкт, що складається з безлічі вершин (пікселів) і безлічі ребер (зв'язків), що сполучають пари вершин.
Дерево речення, дерево залежностей - представлення структури речення у вигляді орієнтованого графа, вузли якого відповідають компонентам структури залежностей.
Інтерфейс - засоби і способи обміну інформацією. Зазвичай мають на увазі людино-машинний інтерфейс, тобто засоби і способи організації діалогу людини та ЕОМ. Однією з лінгвістичних завдань штучного інтелекту є створення природно-мовного інтерфейсу, тобто організація діалогу людини з ЕОМ на природній мові.
Квазіреферат - реферат, складений комп'ютером.
Конфігураційний аналіз - аналіз вхідного тексту шляхом порівняння з набором попередньо виділених синтаксичних конструкцій (конфігурацій, формул) мови, що перекладається.
Лінгвістичний процесор - набір процедур для обробки текстів природною мовою, які є вхідною інформацією автоматизованих систем.
Віконний інтерфейс - спосіб організації інтерфейсу, при якому на екрані дисплея виділяється прямокутна область (вікно), в яку людина вводить і/або ЕОМ виводить інформацію.
Семантичне представлення даних - формальний запис смислової інтерпретації інформації, яка використовує будь-яку модель семантичного описания.
Словник-конкорданс - спеціальний словник текстових словоформ з вказівкою всіх контекстів для кожної словоформи.
Тезаурус - ідеографічний словник, у якому показано семантичні відносини між його одиницями.
Фрейм(кадр) - спосіб опису структури тексту або ситуації, що складається в перерахуванні можливих компонентів і типів зв'язків між ними.
Мова представлення даних - формальний спосіб структурування запису інформації, в основі якого лежить будь-яка формалізована (математична) модель опису.
Становлення сучасного інформаційного суспільства призводить до корінних змін у всіх сферах життя і діяльності людини. В наші дні в один ряд з такими якостями, як уміння читати і писати стає володіння комп'ютером, умінням використовувати інформаційні технології. Інформаційні технології (ІТ) - це сукупність методів і програмно-технічних засобів, об'єднаних в технологічний ланцюжок, що забезпечує збір, обробку, зберігання, розподіл і відображення інформації з метою зниження трудомісткості процесів використання інформаційних ресурсів.
Якими б далекими областями, на перший погляд, не здавалися ІТ і лінгвістика, незаперечний зв'язок між ними підтверджується хоча б фактом існування комп'ютерної лінгвістики (КЛ) – "напряму в прикладної лінгвістики, орієнтованого на використання комп'ютерних інструментів –програм, комп'ютерних технологій організації і обробки даних – для моделювання функціонування мови в тих або інших умовах, ситуаціях, проблемних сферах і т.д., а також всієї сфери застосування комп'ютерних моделей мови в лінгвістиці і суміжних дисциплінах". Більш того, якщо врахувати, що головним предметом дослідження в лінгвістиці є тексти і що саме сучасні ІТ відкривають нові можливості для обробки і аналізу текстів і надають різноманітні засоби створення, розповсюдження, пошуку та обліку текстової інформації, зв'язок і взаємодія цих двох сфер стають ще більш очевидними.
2. Основні лінгвістичні програми і ресурси, представлені в мережі Інтернет
Сьогодні в глобальній мережі Інтернет доступні різні програми, пов'язані з аналізом текстів. Розглянемо найбільш цікаві та корисні, на наш погляд, програми.