
- •1. Уточнення поняття прикладної лінгвістики і можливості застосування в ній комп'ютерних інформаційних технологій
- •2.1. Програми аналізу та лінгвістичної обробки текстів
- •2.2. Програми для автоматичної обробки текстів:
- •2.3. Програми перетворення текстів
- •3. Використання лінгвістичних програм у дослідженні російськомовних і англомовних текстів.
- •4. Перспективні напрямки розвитку сучасної прикладної лінгвістики.
- •Література
3. Використання лінгвістичних програм у дослідженні російськомовних і англомовних текстів.
Можливості деяких програм проілюструємо стосовно дослідження російськомовних і англомовних мистецтвознавчих текстів.
Розглянемо програми аналізу та лінгвістичної обробки текстів TextAnalyst 2.0 і Худломер і системи обробки природної мови і машинного перекладу Translate.Ru і Google Перекладач.
Спочатку звернемося до програми TextAnalyst 2.0. Це змістовний аналізатор, який за лічені хвилини дозволяє ознайомитися з текстами будь-якої тематики. Програма розроблена в якості інструменту для аналізу змісту текстів, смислового пошуку інформації, формування електронних архівів і надає користувачу наступні основні можливості:
• аналіз змісту тексту з автоматичним формуванням семантичної мережі з гіперпосиланнями;
• отримання смислового портрета тексту у термінах основних понять та їх смислових зв'язків;
• аналіз змісту тексту з автоматичним формуванням тематичного дерева з гіперпосиланнями;
• виявлення семантичної структури тексту у вигляді ієрархії тем і підтем;
• смисловий пошук з урахуванням прихованих смислових зв'язків слів запиту зі словами тексту;
• автоматичне реферування тексту;
• автоматична індексація тексту з перетворенням у гіпертекст;
• ранжування всіх видів інформації про семантику тексту «ступінь значущості» з можливістю варіювання детальності її дослідження.
При дослідженні мистецтвознавчих текстів багато хто з цих можливостей можуть бути корисними. Для початку роботи запускаємо програму і вибираємо текстовий файл для аналізу. В нашому випадку це буде файл "Поезія земли.txt", що містить статтю про російською художника Володимира Копилова. Тепер головне вікно TextAnalyst має виглядати приблизно так:
Рис. 1.
Інтерфейс програми TextAnalyst
Уся робота з аналізу тексту вже зроблена, залишається лише ознайомитися з її результатами. Насамперед, вивчивши запропонований матеріал, TextAnalyst формує мережу основних (найбільш значущих) понять, що містяться в поданих йому текстах (верхнє ліве вікно на рис. 1). У нашому випадку в мережу понять входять: "Копилов", "Володимир", "пейзажист", "натюрмортах", "творчості", "вода", "головним", "живописця", "зображення", "художній" та ін.
Така мережа служить поданням змісту тексту і основою для всіх видів подальшого аналізу. Мережа понять - це множина термінів з текстів - слів і словосполучень, пов'язаних між собою за змістом. У мережі включені не всі терміни тексту, а лише найбільш значущі, які несуть основну смислове навантаження. Аналогічним чином представлені і смислові зв'язку між поняттями текстів - відображаються лише найбільш явно виражені з них. Тому, з одного боку мережу досить повно описує зміст текстів, а з іншого - дозволяє відкинути несуттєву інформацію і представити зміст в стислому вигляді, так званому “змістовому портреті”.
Таким чином, можна відразу побачити всю інформацію по кожному поняттю, буквально кинувши єдиний погляд на набір його зв'язків в мережі. В результаті, пересуваючись по смислових зв'язках від поняття до поняття, можна знаходити і прицільно дослідити лише цікаві місця текстів, не утруднюючи себе переглядом всієї інформації.
Тепер звернемо увагу на числа, що стоять в дереві біля понять. Найближче до поняття число представляє його смислову вагу (наприклад, "Копилов" - 100, "Володимир" - 99, "творчості" - 98). Його значення (від 1 до 100) показує, наскільки важливу роль грає поняття для сенсу всього тексту - як багато інформації в тексті стосується даного поняття. Максимальне значення дорівнює 100, говорить про те, що поняття є ключовим і представляє важливу тему тексту. Маленьке, близьке до одиниці, значення показує, що відповідна тема лише побіжно згадана в тексті і в ньому дуже мало інформації, що відноситься до даного поняття. Друге число, яке стоїть перед смисловою вагою, ближче до розкритого вузла, представляє вагу зв'язку від поняття у вершині розкритого списку до даного. Вага зв'язків також завжди приймає значення від 1 до 100.
Крім того, програма надає послугу автоматичного реферування (в меню "Аналіз" вибираємо пункт "Реферування"). Реферат, що формується, містить список найбільш інформативних пропозицій текстів (тез) (рис. 2, верхнє праве вікно). Звичайно, це ще не повноцінний реферат, так як тези в основному не пов'язані між собою стилістично, а просто обрані з тексту і розташовані в порядку їх зустрічальності.
Рис. 2.
Реферування
Однак і такий незавершений реферат виявляється досить інформативним, щоб скласти загальне уявлення про текст і з'ясувати його основні думки. Більш того, всі пропозиції реферату забезпечені відсиланнями до відповідних місць вихідних текстів, що дозволяє переглянути контекст тези, що зацікавила. Подробиці реферату можна легко налаштовувати, змінюючи кількість формуючих його пропозицій. При цьому кожне речення реферату характеризується відносним ступенем значущості в усьому тексті.
Таким чином, дана програма може бути досить корисною, оскільки дозволяє швидко отримати смисловий портрет тексту, що необхідно в процесі роботи з великою кількістю різноманітних текстів, коли нелегко утримати в пам'яті зміст кожного з них. TextAnalyst зручно використовувати і при пошуку текстів для дослідження: не обов'язково витрачати час на читання повного тексту, з допомогою реферування можна швидко зорієнтуватися, про що йде мова (про яких художників, картини, напрямки в живописі і т.д.), і зробити висновок про те, чи підходить даний текст для дослідження.
Тепер розглянемо автоматичний on-line класифікатор функціонального стилю тексту Худломер. Ця програма визначає стиль тексту: розмовний стиль, стиль художньої літератури, газетно-інформаційний стиль, науково-діловий стиль. На рис. 3 представлений інтерфейс Худломера:
Рис.
3. Інтерфейс Худломера
У полі під написом "Уведіть текст (не менше 75 слів)" вставляємо досліджуваний текст (в нашому випадку, наприклад, статтю про російською живописця Ю. Маланенкова "Чарівне дзеркало"). Потім натискаємо "SUBMIT" і отримуємо результат (рис. 4).
Отже, бачимо, що Худломер вважає цей текст газетною статтею, тобто відносить її до газетно-інформаційному стилю. З таким визначенням цілком можна погодитися, якщо врахувати, що стаття була взята з мистецтвознавчого журналу "Художня рада" і тому є прикладом публіцистики. До того ж, на малюнку видно, що червона стрічка під назвами стилів ледь перетинає кордон між "худло" (стилю художньої літератури) і "газетні статті", а публіцистика як раз і займає це проміжне положення.
У нашому випадку Худломер визначив стиль досить точно, проте, як відзначають самі творці програми, він може давати похибки, особливо при малих обсягах текстів.
Варто відзначити, що побудовано автоматичний класифікатор функціонального стилю тексту на основі спектрів довжин слів, характерних для кожного з чотирьох стилів (тобто передбачається, що самі короткі слова зустрічаються в текстах розмовного стилю, а самі довгі - в наукових статтях).
Рис.
4. Відповідь Худломера
Тепер звернемося до перекладачів Translate.Ru і Google Переводчик. У дослідженні, безпосередньо пов'язаному з англомовними текстами, не обійтися без точного і високоякісного перекладу Це виглядає приблизно так, як показано на рис. 5.
^ Текст на английском языке |
Параллельный русский перевод |
No wonder Doig has exerted such an influence on recent painting. He has been able to paint ordinary, nearly kitsch subjects (boats, water, weather, people copied from photos) in disarmingly alluring ways that somehow, almost by the by, tend to accede to modernist pictorial criteria of flatness and materiality and avoidance of the anecdotal. These criteria remain in force despite the waning of modernism as an ideology. At the same time, he conveys a contemporary rather than a historicist sensibility, and a yearning for the unfamiliar rather than the known. Doig's work of the last few years, however, registers a shift – the import of which remains hard to define since it may still be in progress – away from the quietly delirious, mutedly overelaborated manner of painting that served him so well throughout the '90s. One might say he's beginning to evade his own influence. It's hard not to see the change as connected with his move back to Trinidad in 2002. |
Не удивительно, что Дойг оказал такое сильное влияние на современную живопись. Он смог нарисовать красками простые, почти китчевые предметы (лодки, воду, погоду, людей, скопированных с фотографий) в такой обезоруживающе-притягательной манере, которая как-то почти между прочим тяготеет к тому, чтобы соответствовать модернистским критериям живописи – плоскостность и материальность, и нелюбовь к сюжетности. Эти принципы остаются в силе, несмотря на спад модернизма как идеологии. В то же время он передает современную, а не основанную на историзме восприимчивость и выражает стремление к незнакомому, а не к известному. Однако, творчество Дойга в последние годы отмечается сдвигом (значение которого трудно определить, поскольку он может все еще длиться) – уходом от тихо-сумасшедшей, приглушенно перегруженной деталями (слишком сложной) манеры рисования, которая так хорошо служила ему в 90-е годы. Можно было бы сказать, что он начинает избегать своего собственного влияния. Трудно не связывать эту перемену с его возвращением в Тринидад в 2002-ом году. |
Рис. 5. Приклад самостійного перекладу
Даний переклад виконаний людиною-перекладачем самостійно. А тепер подивимося, які варіанти перекладу цього фрагмента тексту пропонують Translate.Ru і Google Переводчик:
Рис.
6. Переклад Translate.Ru
Рис.
7. Переклад Google Переводчика
Важко не помітити, що запропоновані варіанти перекладу у багатьох місцях стилістично і граматично неточні, вже не кажучи про те, що деякі слова і словосполучення і зовсім залишилися без перекладу ("mutedly overelaborated", "historicist"). Такий переклад безсумнівно вимагає доопрацювання. Розглянуті програми-перекладачі швидше будуть корисні тому, хто майже не володіє іноземною мовою, але хоче зрозуміти основну ідею тексту, адже вони дійсно передають загальний сенс при перекладі.
Професійному ж лінгвісту, який добре знає мову, загальний сенс зрозумілий і так. Йому потрібен точний переклад з урахуванням всіх тонкощів і відтінків значень. У цьому плані на допомогу приходить один з найвідоміших електронних словників ABBYY Lingvo (рис. 7) з великою кількістю вбудованих словників різної тематики, тлумаченнями, прикладами, стійкими виразами і т.д.
Рис.
8. ABBYY Lingvo 12
Отже, всі описані вище лінгвістичні програми дійсно можуть бути корисні при дослідженні англомовних і російськомовних текстів. Однак не варто цілком покладатися на дані, отримані за допомогою таких програм. Краще ще раз перевірити і проаналізувати їх самостійно.