Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекція_4.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
166.96 Кб
Скачать

3. Автоматичні словники

Спочатку автоматичними, або машинними, словниками називали будь-які словники, укладені при комп'ютерній підтримці. Але з часом виділилася група словників, укладених на комп'ютері й використовуваних саме комп'ютером у розв'язанні завдань комп'ютерного опрацювання тексту або створення певних систем такого опрацювання. Деякі з цих словників назвати так можна лише умовно, оскільки вони ні за реєстровими одиницями, ні за будовою не схожі на звичайні словники.

а) Автоматичні словники для розпізнавання мови

Класичним прикладом автоматичного словника може слугувати словник, призначений для розпізнавання мови, якою написано текст, що важливо, якщо треба опрацювати масив різномовних текстів. Наприклад, у масиві текстів є тексти українською, російською та білоруською мовою або англійські та німецькі тексти. У цьому випадку треба виявити ті риси, які властиві лише одній із зіставлюваних мов. Це можуть бути літери або буквосполучення, службові слова або слова високочастотні, специфічні для певної мови синтаксичні конструкції і т.ін. Під час зіставлення трьох вищезгаданих слов'янських мов виявляється, що літери ґ, ї властиві лише українській мові, у — лише білоруській, ъ - російській. Німецьку мову відрізняють від інших мов з латинським шрифтом літери ä, ő, ü, В; буквосполучення sch, яке в англійській мові зустрічається в поодиноких словах, а в німецькій на кожному кроці. В англійській мові немає літер, властивих лише для неї, але є буквосполучення th, яке в німецькій мові майже не зустрічається. Якщо взяти найчастотніші слова, то вони будуть різними для різних мов. Для англійської - the, to, for, а для німецької - die, der, das. Словник, призначений для розпізнавання мов, будується як таблиця, у якій стовпчики позначають зіставлювані мови, а рядки - диференційні ознаки, які їх розрізняють, що не схоже на звичайний словник, як ми звикли його бачити й уявляти.

Отже, в комп'ютерних словниках можуть бути такі реєстрові одиниці, таке їх поєднання та представлення, яких не буває у словниках паперових.

Можливості та процедури розпізнавання мови досить детально описала Л. М. Бєляєва. Авторка формулює дві особливості постановки задачі розпізнавання мови:

- із багатомовного масиву текстів треба виокремити всі тексти однієї, заздалегідь визначеної мови;

- треба розпізнати мову, якою написаний чи вимовлений кожний текст. Щодо цих двох можливостей існує два способи вирішення завдання розпізнання мови: розпізнання мови з заздалегідь відомого й заданого набору мов та розпізнання мови в ситуації, коли цей набір мов невідомий.

Розпізнавання має опиратися на розпізнавання діагностичних ознак, властивих лише певній мові і невластивих жодній іншій у даному наборі мов. Такими ознаками можуть бути як характеристики словоформ певної мови, так і частотні слова чи буквосполучення. Вибір процедури розпізнавання мови залежить від того, опис яких мов і який саме є в базі даних, яка використовується при вирішенні завдання. Авторка вважає, що для кожної мови треба мати діагностичні списки, які містять найчастотніші слова (переважно це службові слова) за винятком однобуквених, оскільки останні можуть належати до службової інформації. Найчастотніші слова покривають близько 20% будь-якого тексту, отже, обов'язково зустрінуться в тексті. Але треба мати на увазі, що такі слова в текстах різних функціональних стилів тієї самої мови будуть різними. Наприклад, в українських текстах п'єс перші десять слів (за спадом частот) - не, і, а, я, в, на, що, з, ти, ж, а в науково-технічних - в, і, з, на, що, при, для, у_, до, як. Спільними в цих списках є половина слів (непідкреслені).

Крім того, можлива наявність міжмовних омонімів, наприклад, рос. сор та англ. cop [kDp], укр. ре (нота) й рум. ре (на) та ін.

Заважають розпізнаванню мови також друкарські помилки, досить часті в комп'ютерних текстах.

Якщо використовувати специфічні для певної мови літери чи буквосполучення, то на перешкоді стає те, що в інтернеті, як правило, пропускають діакритичні знаки, тому німецькі ä, ő, ü не відрізнятимуться від а, о, u.

Отже, розпізнавання мови, якою написано текст, наштовхується на чималу кількість перешкод, тому справа ця не така легка, як здається на перший погляд, й укладання спеціальних автоматичних словників - важливе завдання, що стоїть перед комп'ютерною лексикографією.

б) Автоматичні словники для інформаційно-пошукових систем

Автоматичні словники, призначені для інформаційно-пошукових систем, у ролі реєстрових одиниць мають дескриптори, тобто ті слова чи словосполучення, які є ключовими для розкриття смислу тексту.

Дескриптори можуть бути різними за широтою змісту. Це означає, що у словнику дескрипторів вони розташовані ієрархічно, наприклад, за родо-видовими відношеннями. Ясно, що дескриптор більш широкого змісту притаманний більшому колу джерел. Якщо користувач у своєму запиті використовує більш широкий за змістом дескриптор, список виданих пошуковою системою джерел буде включати такі, що не мають безпосереднього відношення до теми запиту, це називається інформаційним шумом. Щоб уникнути інформаційного шуму, тобто одержати менший, але точніший список джерел, треба точно формулювати запит, використовуючи в ньому вужчі за змістом дескриптори.

Раціонально побудована інформаційно-пошукова система повинна бути відкритою, тобто дозволяти внесення в неї змін у процесі її використання. Такі зміни можуть бути пов’язані з необхідністю поповнити список дескрипторів або змінити їх системні відношення у зв'язку з указівкою на таку необхідність у формулюванні запитів. Можливо також, що якісь дескриптори варто вилучити з системи, оскільки, як показують запити, ці дескриптори дублюють один одного.

Словом, над удосконаленням словника дескрипторів й інформаційно-пошукової системи весь час працюють автори системи, про що користувач може догадатися лише з того, що у відповідь на свої запити він одержує списки джерел з усе меншим шумом. Досить досконала інформаційно-пошукова система може також коригувати запити користувачів, пристосовуючи їх до принципів будови системи і цим самим сприяючи кращому розумінню між комп'ютером і користувачем-людиною. Про таку систему кажуть, що вона є самонавчальною, тобто такою, що враховує неточності й у будові словника дескрипторів і системи в цілому, й у запитах користувачів.

Всяка інформаційно-пошукова система тісно пов'язана з певною предметною ділянкою. Це необхідно для уникнення інформаційного шуму, який виникає внаслідок омонімічних термінів у різних науках. Наприклад, термін КОРПУС має істотно різне значення у військовій справі й літако- чи суднобудуванні; слово КВАДРАТ має різні значення в геометрії й алгебрі; СТАН позначає різні поняття в мовознавстві й описі зовнішності людини. Таких прикладів можна навести дуже багато. Орієнтація ж інформаційно-пошукової системи на вужчу, чіткіше окреслену предметну ділянку забезпечить ефективніше її використання.

Зараз існує чимало різних інформаційно-пошукових систем в інтернеті, з одного боку, безплатних багатогалузевих. як-от Google, Yahoo, Yandex, з іншого - платних, що є власністю тієї фірми, на сайті якої ця система розміщена, або вузькоспеціалізованих, що теж розміщуються на сайтах певних фірм чи компаній і дають інформацію, яка стосується тільки цієї фірми, наприклад, розклад руху літаків.

Багатогалузеві інформаційно-пошукові системи пред'являють підвищені вимоги до запиту: він має складатися не з одного дескриптора (ключового слова), а з кількох, які уточнюють зміст першого. Інакше у відповідь на запит буде дуже великий інформаційний шум. Наприклад, на запит президент буде видано величезний список президентів усіх країн й установ усіх років. Якщо дати запит у вигляді президент США, то відповіддю буде список усіх президентів США. Якщо ж ви хочете довідатися, хто був президентом США у 1948 році, то й запит повинен бути: президент США у 1948 році.

При цьому користувач не знає принципів будови багатогалузевої системи, він може опосередковано мати уявлення про неї, аналізуючи відповіді на свої запити. Більш того, розробники будь-якої системи зберігають у таємниці будову і її частин, і цілої системи, це професійна таємниця, know-how. Нею є будь-яка програма, що є основою будови й використання системи.

З розвитком систем машинного перекладу набуло поширення словників, спеціально призначених для систем МП. І хоч успіхи МП не такі вже й великі, кількість експериментальних систем МП, а значить і словників для них, невпинно зростає.

в) Словники для машинного перекладу

Щоб перекласти текст з однієї мови на іншу, необхідно виконати такі етапи роботи:

- зрозуміти текст, який треба перекласти; це можливо за умови, якщо перекладач знає граматику вихідної мови, тобто, словозмінні форми кожного слова в перекладеному тексті, а також правила поєднання слів у реченні;

- вміти поставити у відповідність кожному слову й кожній конструкції слово у потрібній формі, як цього вимагає граматика вхідної мови, тобто мови, на яку перекладається текст, а також правильно побудувати речення.

Для комп'ютера слово "зрозуміти" нічого не значить, його треба замінити висловом "поставити у відповідність певним формам слів семантичну інформацію словника". Отже, перше завдання розробника системи машинного перекладу полягає у створенні підсистем морфологічного та синтаксичного аналізу перекладуваного тексту. Підсистема морфологічного аналізу забезпечується словником, у якому наводиться повна парадигма відмінюваних слів і можливі варіанти невідмінюваних. Укладанню такого словника передує дослідження, спрямоване на встановлення типів відмінювання та класів відмінюваних слів, що характеризуються певними флексіями та, можливо, змінами в корені чи основі відмінюваного слова. Словникову статтю у такому словнику можна побудувати, навівши або повну парадигму, або основу слова та набір властивих слову флексій. Основою слова у цьому випадку вважають незмінну частину слова, до якої додають флексії, наприклад: сл-ово, сл-ова, сл-ову, сл-ів і т.ін. Як бачимо, виділена основа не, збігається з тією, яка встановлюється шкільними граматиками, тому її називають квазіосновою.

Для флективної мови краще використовувати другий підхід, оскільки наведення повної парадигми кожного слова робить словник занадто довгим і незручним для користування. Якщо ж виділити основу й набір флексій, то цей набір може повторюватися з багатьма основами і слугувати показником парадигматичного класу, тобто тієї множини основ, яка характеризується саме таким набором флексій. Годі й основі, й даному набору флексій приписується номер парадигматичного класу, за цим номером знаходять основи, відмінювання яких відбувається шляхом приєднання набору флексій, якому приписано той самий номер, що й основі.

Для мови аналітичної, наприклад, англійської, цей підхід має обмежене застосування, оскільки більшість словозмінних форм у ній створюється не додаванням афіксів до відмінюваного слова, а сполученням його з допоміжними словами, які є основними виразниками словозмінної форми прикметника чи дієслова, наприклад: most interesting - найцікавіший, does not go — не йде. Особливо розгалуженою є система дієслівних аналітичних форм. При цьому відмінюване дієслово вживається в одній із чотирьох основних форм, кожна з яких утворюється синтетично або додаванням афіксів -ing, -ed для регулярних дієслів, або зміною слова для нерегулярних. Відмінюване дієслово не змінює форми для всієї групи певного часу, а конкретні форми цієї групи виражаються зміною допоміжного дієслова, наприклад: am reading, is reading, are reading.

Отже, визначення словозмінної форми в аналітичних формах здійснюється у два етапи:

1) визначення основної форми аналітичного дієслова, яка створюється синтетично,

2) визначення сполучення з допоміжним дієсловом, яке змінюється залежно від словозмінної форми. Наприклад, якщо відмінюване дієслово має форму Participle II, то воно може сполучатися з допоміжним дієсловом have для утворення перфектних форм (have written, has written, had written) або з дієсловом be для утворення пасивного стану (is written, was written, і т.д.).

Для обох типів мов слід розрізнювати форми, що утворюються за певними правилами (регулярні форми), для яких будова словникової статті така сама, що й для флективної мови, й нерегулярні форми, які слід наводити повністю.

Результати морфологічного аналізу слугують вихідним матеріалом для підсистеми синтаксичного аналізу, який встановлює правила поєднання слів певних парадигматичних класів між собою, що приводить до утворення правильних синтаксичних конструкцій, і зрештою визначає структуру речення.

Це дві підсистеми автоматичного аналізу перекладуваного тексту. їм відповідають дві підсистеми, спрямовані на синтаксичний і морфологічний синтез одиниць вихідної мови, на яку відбувається переклад. Вони теж створюються як системи правил, по-перше, відповідності структури вихідної мови структурам, встановленим для вхідної мови, та відповідність словозмінних форм вхідної мови формам мови, з якої текст перекладається.

Крім цих підсистем формального аналізу повинна бути підсистема власне перекладу, тобто встановлення семантичних відповідностей між перекладуваним та перекладеним словом, синтаксичною конструкцією або цілим реченням.

Отже, автоматичний словник для машинного перекладу - це серія словників:

а) морфологічного аналізу,

б) синтаксичного аналізу,

в) синтаксичного синтезу,

г) морфологічного синтезу, які будуються здебільшого у вигляді таблиць, та словника, семантичного, у якому для кожного слова перекладуваної мови наводяться значення у мові, на яку здійснюється переклад (див. Рис. 1).

Семанти­чний словник → текст

Рис. 1 Взаємодія автоматичних словників машинного перекладу

Відразу виникає питання: що має містити семантичний словник для МП, чим він відрізняється від інших автоматичних словників? Перше, що спадає на думку: цей словник має містити частотну лексику. Ну, а якщо в перекладуваному тексті трапляються нечастотні слова? А вони є в будь-якому тексті, їх значно більше, ніж частотних, а тим більш високочастотних слів. У частотних словниках яскраво виявляється закон переваги: невелика кількість високочастотних слів, значно більше слів середньої частоти, а за ними тягнеться велика кількість низькочастотних слів. Отже, не вміщувати у словник для МП низькочастотні слова означає не змогти забезпечити повний переклад тексту за таким словником. Словник для МП має бути якомога більшим за обсягом, щоб кількість слів, що трапляються в перекладуваному тексті, але не зареєстровані в словнику для МП, становила незначну частину тексту і не заважала розуміти текст.

А скільки ж слів треба вмістити у словник для МП, щоб він задовольняв цю вимогу? Щоб відповісти на це питання, треба здійснити спеціальне дослідження: укласти серію ЧС різних текстів тієї галузі науки чи техніки, для перекладу якої створюється система. За ранговими списками цих ЧС можна з’ясувати, яка кількість і яких саме слів покривають певний відсоток тексту. Зіставивши одержані для різних текстів дані, можна досить точно визначити реєстр майбутнього словника для МП.

Поки що обсяг реєстру перекладного словника для МП встановлюється інтуїтивно. Так, Л. М. Бєляєва вважає, що словникова база має містити не менше 50000 реєстрових слів.

Семантизація реєстрового слова, тобто вказівка на його значення, відбувається по-різному в різних системах МП. Наприклад, у системі МП, яка створюється в Мовно-інформаційному фонді Інституту мовознавства УАН, укладається багатомовний словник, оскільки планується, що створювана система здійснюватиме переклад з української мови на кілька мов - англійську, німецьку, французьку, турецьку, російську. Семантизація слова здійснюється через його тлумачення, вихідною мовою є українська. З тлумачного словника виписують слово з його тлумаченням. Якщо слово має кілька тлумачень, його виписують стільки разів, скільки тлумачень у нього є. За тлумаченням слову приписують номер семантичної групи. Потім за синонімічним словником виписують синоніми до реєстрового слова, яким можна приписати те саме тлумачення. Розташовують їх за спадом семантичної близькості й усі разом утворюють семантичну групу, якій присвоюється певний номер.

Далі зі словників вхідних мов, на які буде здійснюватися переклад, виписують слова, що мають те саме значення, що й українське слово, і їхні синоніми, які теж розташовуються за спадом семантичної спільності. Цій семантичній групі присвоюється той самий номер, що й відповідній українській семантичній групі. За спільністю номерів семантичних, груп перебуває відповідник українського слова в даній мові.

В українській частині словника уже зараз нараховується 208920 слів, яким відповідають 7000 тлумачень, у російській - 168000, в англійській -215000.

Словникова стаття має такий вигляд:

1) реєстрове слово у вихідній формі;

2) вказівка на лексичні омоніми, номери яких містяться в іншому словнику, на який у даній статті робиться посилання;

3) лексико-граматичний клас та його код (відсилка до таблиці словозмінних типів, їх ознак і номерів);

4) номер парадигматичного класу (відсилка до таблиці словозмінних типів, їх ознак і номерів);

5) тлумачення (номер семантичної групи та ранг слова у цій групі, у якій слова розташовані за спадом семантичної близькості), наприклад, семантична група № 1, якій відповідає тлумачення "намагатися запам'ятати" містить такі українські й російські слова з їх рангами:

українські

1.заучувати

2.завчати

3. виучувати

4.вивчати

5. учити, вчити

російські

1.заучивать

2. выучивать

3. разучивать

4. учить

Кожна таблиця, до якої є відсилки від статті цього словника, має свою будову. Наприклад, таблиця словозмінних типів вміщує такі рубрики:

а) квазіфлексія,

б) номер парадигматичного класу,

в) граматичний клас, який приблизно відповідає частині мови,

г) номер граматичної форми в парадигмі.

Виходить, що для МП потрібен не звичайний перекладний словник, а ціла серія взаємопов'язаних таблиць різної будови й різного призначення, які у своїй сукупності забезпечують машинні процедури аналізу вихідного й синтезу вхідного тексту, який і є перекладом.

При цьому для тексту вихідного, який треба перекласти, і для тексту вхідного, тобто перекладу, будуються різні системи правил, зважаючи на те, що це різні мови, й на те, що правила аналізу й синтезу одиниць навіть однієї мови відрізняються одне від одного.

Виникає також питання: що має слугувати реєстровою одиницею семантичного словника для МП: слово, словоформа чи основа слова? Різні системи МП по-різному вирішують це питання. Якщо взяти реєстровою одиницею основу, не треба формулювати правила про те, скільки літер треба відкинути від слова, щоб одержати основу, а це спрощує систему правил МП.

Якщо зробити реєстровою одиницею словозмінну форму, то, здавалось би, алгоритм іще більше спрощується, оскільки ми маємо не синтезувати словоформи, а брати вже готові. Але при такому підході у кілька разів збільшується кількість реєстрових одиниць, що не можна вважати доцільним при укладанні словника. Тому такий шлях формування реєстру словника для МП практично не використовується.

Є спроба реєстровими одиницями взяти не лексичні одиниці, а синтаксично організовані словосполучення, особливо усталені, які, по-перше, досить частотні, а, по-друге, є готовими блоками для побудови речення у перекладеному тексті, тобто, знімається частина правил, що стосуються синтезу речення перекладеного тексту. Цей підхід має переваги, але для його реалізації необхідно здійснити попереднє дослідження, щоб виявити такі словосполучення та їх відповідники у вихідному тексті, тобто побудувати перекладний словник словосполучень, властивих текстам даної тематики чи предметної області.

Зараз уже майже не викликає заперечень те, що найраціональніше створювати систему МП для досить вузької предметної галузі. Адже тексти будь-якої галузі науки чи техніки мають свої особливості лексичного й граматичного характеру, тому будувати систему МП и укладати словники для однорідних щодо цього текстів простіше, та й діяти вона буде ефективніше.

Тривалий час у справі побудови систем МП не враховували необхідність попереднього статистичного аналізу текстів і результатів його під час створення систем МП, що, безсумнівно, гальмувало розвиток машинного перекладу, оскільки апріорний підхід, на якому базувалися розробники таких систем, не міг дати позитивних результатів. Це переконливо аргументував проф. Р. Г. Піотровський.

Безумовно, врахування кількісних характеристик тексту значно полегшило б побудову систем МП й сприяло б удосконаленню автоматичних словників для МП.

г) Автоматичні словники для комп'ютерного розуміння смислу тексту

Тривалий час комп'ютерні дослідження були спрямовані лише на формально-граматичний аналіз тексту, не ставлячи своєю метою семантичний аналіз. Вважали, що здійснити семантичний аналіз тексту, домогтися того, щоб комп'ютер розумів смисл тексту - просто неможливо. Щоправда, окремі групи лінгвістів вели пошуки в цьому напрямі, але досягнення їхніх зусиль більш ніж скромні.

Однак здійснення комп'ютерного семантичного аналізу тексту - чи не найважливіше завдання комп'ютерної лінгвістики, оскільки він є запорукою розв'язання низки практичних завдань, таких як машинний переклад, інформаційний пошук, автоматичне реферування й анотування тексту. Успішне здійснення їх неможливе без комп'ютерного розуміння тексту.

Як розуміє текст людина? Що їй треба знати, щоб зрозуміти текст? По-перше, необхідно знати значення кожного слова, тобто співвіднести ланцюжок літер, яким є слово, з поняттям, яке цим ланцюжком відображається. Але значення слова може змінюватися залежно від того, з якими словами воно сполучається. Отже, треба знати, як впливає сполучення з тим чи іншим словом на значення слова. Тобто, треба знати вплив речення, в якому слово вжито, на семантику слова. Але й цього не досить, необхідно також знати, як поєднуються речення в тексті, як випливає смисл тексту з поєднання речень. Адже для тексту має значення не лише смисл кожного речення, а й порядок їх розташування. Цілком можливо, що зміна порядку слідування речень приводить до порушення цілісності тексту. Візьмімо невеличкий текст: "Іван Петрович - наш учитель математики. Він дуже любить свій предмет." Якщо ми змінимо порядок речень, текст як ціле зникає, між реченнями немає зв'язку. При цьому слід мати на увазі, що у своєму сприйманні тексту людина спирається на свої фонові знання, життєвий досвід, який вона набула. Тому багато чого в тексті людина зрозуміє підсвідомо, навіть якщо воно експліцитно не виражено. А оскільки життєвий досвід, а, отже, й фонові знання, у різних людей різні, то й розуміння того самого тексту ними може бути різним.

Поставимо на місце людини комп'ютер. Щоб він "знав" значення слова, слід виразити це значення через якісь формальні одиниці - семантичні множники у словниковій дефініції слова, символи певної метамови, якими виражають елементи значення, дескриптори, тобто лексичні одиниці, які є ключовими для вираження значення і представлені формальним способом, який може сприймати комп'ютер, та ін.

Про сполучуваність слів комп'ютер може одержати інформацію з конкордансу, але як вона впливає і чи впливає на зміну значення слова, з конкордансу дізнатися не можна, тут слід здійснити спеціальні дослідження, які повинні показати комп'ютерові в явному вигляді, які саме зміни відбулися.

Спеціальних досліджень вимагає також розкриття особливостей поєднання речень у тексті і вплив такого поєднання на смисл тексту. При здійсненні описаних досліджень необхідно виходити за межі мови, в позамовну дійсність, оскільки семантика - це вираження зв'язку між системою мови та предметами, явищами І поняттями оточуючої нас дійсності. В цьому, а також у тому, як саме людське мислення відображає ці зв'язки в мовленні, - трудність побудови систем автоматичного семантичного аналізу.

Існує чимало експериментальних систем автоматичного семантичного аналізу. Основними складниками кожної з них є семантичний словник і правила семантичного аналізу, які повинні визначати семантичні зв'язки між словами. Як правило, набір цих зв'язків обмежується набором синтаксичних та парадигматичних зв'язків, наявних в автоматичному синтаксичному аналізі. Але слід зазначити, що ці зв'язки не виходять за межі речення, отже, не дають достатньої інформації про смисл тексту, а, отже, про те, що таке автоматичне розуміння тексту.

Що ж означає "автоматичне розуміння тексту"? Н.М.Леонтьева вважає, що комп'ютер "зрозумів" текст, якщо він:

- видав стислий зміст (реферат) цього тексту;

- може відповідати на питання до цього тексту:

- може за описом намалювати відповідну картинку або схему; може відобразити описані дані в іншій формі, наприклад, таблиці;

- може порівняти змісти двох різних текстів і повідомити, що в них спільного й відмінного.

Щоб реалізувати будь-який вид розуміння комп'ютером змісту, йому треба надати багато вихідних даних у вигляді лінгвістичних та предметних знань з тої галузі, до якої належить текст (словники, граматики, алгоритми і т. ін.), у зрозумілій для комп'ютера формі, з якої ці дані можна перевести на мову програми. Однак, до розв'язання цих завдань теоретична лінгвістика ще не готова.

Але розробниками різних систем опрацювання тексту на комп'ютері накопичено досвід автоматичного аналізу, в тому числі й семантичного. Ясно, що перш за все необхідно укласти семантичні словники, в яких у доступному для комп'ютера вигляді дається інформація про зв'язки слова, тобто ланцюжка літер, з поняттям, яке цим ланцюжком виражається. При цьому, як підкреслює Н. М. Леонтьева, яка зосередила свої зусилля саме на створенні систем автоматичного розуміння тексту, необхідно зберегти в словникових описах ідею рівнів, тобто розмежування морфологічних, синтаксичних, семантичних й онтологічних даних. У достатньо розвинутому словнику мають відображатися відношення похідності та сполучуваності лексем. Якщо словник укладається для систем розуміння тексту, то не можна обійтися без опису предметної галузі, тобто без інформації парадигматичної.

Одним із словників, призначених для комп'ютерного розуміння тексту, є словниковий комплекс РУСЛАН, укладання якого почалося ще в 1999 році в науково-дослідному обчислювальному центрі МДУ ім. М. В. Ломоносова. Структура цього словникового комплексу розроблена з великим запасом, щоб на нього можна було б спиратися у розв'язанні не лише сьогоднішніх складних завдань автоматичного опрацювання тексту, але й майбутніх завдань.

Комплекс складається з кількох частин:

1) словник повноцінних лексем;

2) службові частини мови (прийменники, сполучники, усталені словосполучення, частки і т. д.); це все - слова-відношення прийнятої в системі семантичної мови;

3) вільні й напіввільні словосполучення й терміни, яким приписується лише загальнолінгвістична семантична інформація;

4) списки елементів метамови, в тому числі не термінальні символи (НТС), опис їх семантики задасться словниковим способом;

5) ряд словників предметної галузі, тут розміщується специфічна для кожної галузі термінологія з тезаурусною та енциклопедичною інформацією.

Усі ці словники, кожен з яких є окремою базою даних, разом утворюють єдиний гіперсловник системи автоматичного опрацювання текстів.

Розмежування значень багатозначного слова у словнику огрублюється порівняно з сучасною "людською" лексикографією: виділяється стільки значень, скільки можна забезпечити формальними контекстами.

Робота над поповненням й удосконаленням словника ведеться весь час. Велика увага приділяється наведенням текстових прикладів: лаконічні й переконливі приклади, по-перше, роблять словник більш читабельним, у тому числі й для розробників системи, по-друге, у майбутньому полегшать розмежування семантичної багатозначності, по-третє, створюють досить ефективний ресурс поповнення словника новою лексикою.

Отже, можна чекати, що розв'язання проблеми комп'ютерного розуміння тексту - справа не дуже далекого майбутнього. Значною мірою воно залежить від комп'ютерної лексикографії.

Термінознавство й термінографія.

1. Поняття мова без статусу

Якщо певна мова не має літературної норми, або її літературна норма перебуває у стані формування, така мова називається мовою без статусу.

Мова без статусу не потребує майже ніякого штучного оброблення, бо ніяких специфічних функцій вона не виконує, залишаючись просто мовою даного етносу. Особливо у випадку, коли носії цієї мови розмовляють рідною мовою лише у побуті, а для ділових потреб користуються іншою, більш уживаною мовою, тому що відчувають себе не самостійним етносом, а складовою частиною якоїсь численнішої нації.

Наприклад, представники таких українських субетносів, як гуцули, лемки, бойки, вважають себе складовою частиною української нації. На побутовому рівні вони розмовляють виключно власними діалектами, тоді як для офіційних потреб використовують літературну українську мову.

2. Поняття мова зі статусом

Інша річ, коли певна етнічна група претендує на роль самостійної нації і здобула свою державність. Тоді їхня мова вимагатиме ширших функцій завдяки своєму новому статусу. Взагалі статус мови може бути не тільки державний. Є ще національний, регіональний, міжнародний статуси мови. Але досить часто виявляється, що ця мова функціонально не відповідає новому статусу через брак відповідної лексики, тому постає необхідність у формуванні літературної мови нації.

3. Етапи формування літературної мови нації

Цей процес проходить чотири етапи:

- на першому - підвищується інтерес до мови як предмета наукового дослідження;

- другий етап - це спроби побудови мовних стандартів;

- на третьому - починається процес досконалого опанування цією мовою представниками відповідної етнічної групи, бо лише тоді стандартизована літературна мова може виконувати свої функції;

- останнім етапом є вимога зробити нову літературну мову мовою науки, діловодства та ринку.

Проте не можуть стати високорозвиненими літературними мовами абсолютно всі сучасні мови світу. Все залежить і від кількості носіїв, і від ступеня поширеності відповідної мови, і від її функції, і від її статусу.

4. Форми пристосування мови до певних функцій

Основна проблема пристосування будь-якої мови до певної функції - це стан розвитку так званої мови для спеціальних потреб, мінімальною одиницею якої є термін. Якщо цей стан мови нерозвинений, то носії цієї мови позбавлені можливостей використовувати її під час комунікації.

Виходячи з цього, можна дійти висновку: мова має бути пристосована, адаптована до певної функції шляхом штучного втручання в її розвиток. Прикладом може бути японська мова, якою зараз видається значна частина науково-технічної літератури, хоча сто років тому вона була зовсім непристосованою для цього.

Пристосування мови до певних потреб може відбуватися у вигляді мовної адаптації та мовного планування.

Мовна адаптація - це спонтанне пристосування мови до тих або інших умов, що відбувається майже непомітно для мовної громади. Вона може бути як свідомою, керованою дією, так і підсвідомою, некерованою.

Мовне планування навпаки проводиться певними організаціями, створеними з цією метою. Це штучне втручання в мову з конкретною метою. Воно складається з двох аспектів - планування статусу та планування корпусу.

Планування статусу - це надання тій чи іншій мові певного статусу та пов'язана з цим низка заходів.

За плануванням статусу йде планування корпусу, що є, як вже було зазначено, свідомим втручанням у структуру мови, насамперед - у її лексику, фонетику, граматику.

Планування корпусу складається з таких напрямків:

а) побудова писемності, або графізація;

б) модернізація (розширення словникового складу мови й розвиток нових стилів);

в) стандартизація (процес, коли один з мовних варіантів стає загальноприйнятим як наддіалектна норма).

Поняття термінологічне планування.

Одним із різновидів планування корпусу мови є термінологічне планування. Під термінологічним плануванням розуміють роботу, спрямовану на формування й розвиток термінологій, які ще відсутні у певній мові.

Термінологічне планування, як і планування мови в цілому, теж складається з модернізації та стандартизації.

Термінологічна модернізація полягає у створенні нових термінів, тому що галузеві термінології не можуть бути апріорі притаманними будь-якій мові. Тільки за умови пристосування мови до певної галузі наукового або технічного знання починає свій розвиток певна галузева термінологія. Причому творення нових термінів може спрямовуватися або на інтернаціоналізацію, або на пурифікацію.

Термінологічна стандартизація - це процес вибору термінологічної норми та її затвердження як обов'язкового варіанта, щоб і наявні, і новостворені терміни були зрозумілими всім галузевим фахівцям.

З історії термінологічного планування. Термінологічне планування в розвинених країнах

З 17 століття в Європі під впливом розвитку суспільства почали з'являтися нові суспільні, технічні та юридичні реалії, що потребували чітких і однозначних термінів для свого позначення. Бурхливий розвиток галузевих терміносистем, які збагачували європейські мови новими лексичними одиницями, через свою інтенсивність і масовість став некерованим, що призвело до виникнення великої кількості синонімів для позначення одного й того ж поняття. Тому перед галузевими фахівцями постала проблема стандартизації термінів і централізованого керування термінотворчою роботою.

З цією метою у європейських державах було створено національні установи з термінологічної стандартизації. А узагальнювала та узагальнює їхню роботу низка таких міжнародних установ, як Міжнародна Електротехнічна комісія (ІЕС), Міжнародна Федерація з національних стандартів, Міжнародний інформаційний інститут термінологічної стандартизації - Infoterm.

Вони розробляють єдині правила побудови інтернаціональних терміноелементів (ключових слів) з різних галузей науки, доповнених списками найуживаніших афіксів та коренів. Основними джерелами поповнення термінологічної лексики переважної більшості європейських мов ( класичні мови (латина та грека) та три провідні групи індоєвропейської мовної сім'ї: романська, германська та слов'янська.

Термінологічне планування в країнах третього світу

У країнах третього світу необхідність термінологічного планування виникла після розпаду світової колоніальної системи, наслідком чого було утворення нових держав і надання місцевим мовам статусу державних. На відміну від європейських держав, де процес формування галузевих терміносистем йшов поступово, за етапами розвитку технічного прогресу, країни третього світу мусили у стислі строки подолати відсталість не лише в економіці, але й у розвитку рідної мови. Термінологічна модернізація в цих мовах проводилася такими шляхами:

1) побудова термінів шляхом прямого запозичення з колишньої колоніальної мови;

2) побудова термінів шляхом використання виключно внутрішніх ресурсів мови;

3) побудова термінів шляхом прямого запозичення з європейських мов разом з новітніми технологіями;

4) побудова термінів за допомогою всіх наявних ресурсів.

Термінологічне планування в Україні

Українська сучасна термінологія бере свій початок з підручників для початкової та середньої школи, що їх було видано галицьким товариством "Просвіта". Його було засновано 1868 року.

У другій половині XIX століття в Україні було видано перші галузеві словники, наприклад, шість випусків "Початки до уложення номенклатури і термінології природописної" І. Верхратського; "Початок до уложення термінології ботанічної руської" І. Гавришкевича тощо.

Проте ніяких заходів щодо впорядкування та стандартування галузевих терміносистем тоді ще не проводилося.

Розквіт термінотворчої роботи в Україні припадає на 20-ті роки XX століття, на період так званої українізації, коли після 200-літньої перерви українська мова стала мовою суспільного та політичного житія. Протягом 20-х років було видано понад 85 галузевих словників.

Головною метою термінотворчої роботи в той період була побудова українських національних терміносистем і відокремлення українських— терміносистем від російських, тобто орієнтація на ті мови світу, які є продуцентами термінів, уникаючи таким чином російського посередництва.

У багатьох випадках акцент було зроблено на народну мову, коли терміни будувалися за допомогою внутрішніх ресурсів. При цьому активно залучалися архаїзми та діалектизми. Вже засвоєні інтернаціональні слова штучно замінювалися новоутвореннями на основі українських коренів:

"громовина" замість "електрика", "впорскування" замість "ін'єкція", "облямівка" замість "ореол", "первень" замість "елемент", "мірило" замість "масштаб", "модло" замість "шаблон" тощо.

Отже, можна стверджувати, що протягом 20-х років XX століття в українській термінотворчій діяльності панував пуризм.

З 30-х років XX століття термінологічне планування в Україні спрямовується на штучне зближення українських галузевих терміносистем з російською мовою. У цей період було видано спеціальною Словниковою комісією понад 50 термінологічних словників як російсько-українських, так і тлумачно-довідкових з різних природних та гуманітарних наук. Але вважається, що вони не претендували на вичерпність, виходили мізерними тиражами і орієнтувалися на російську мову, яку було визначено еталоном.

Після здобуття Україною незалежності та надання українській мові статусу державної термінотворча робота знову активізувалася. Почали видаватися та перевидаватися численні термінологічні словники з різних галузей науки й техніки. У цей процес включилися як мовознавці, так і галузеві фахівці.

Серед перших словників цього періоду можна назвати "Російсько-український словник фізичних термінів" проф. О.Б. Лисковича, "Російсько-український словник дорожника" О.А. Білятинського. "Російсько-український будівельний словник" (Укрдержбуд) тощо.

Проте далеко не всі з цих словників заслуговують уваги як серйозні лексикографічні праці через брак досвіду авторів в укладанні термінологічних словників. Відсутність централізованого керівництва термінологічним плануванням в Україні приводить до того, що словники фактично суперечать один одному. Взагалі, зараз спостерігаються принаймні три тенденції термінотворчої роботи:

1) перелицювання відповідних російських термінів на ніби український лад;

2) перелицювання відповідних англійських термінів на ніби український лад;

3) реанімація лексикографічних традицій 20-х років ХХ ст., що були спрямовані на крайній пуризм.

Отже, надання українській мові статусу державної вимагає певних заходів щодо планування її корпусу, розроблення галузевих термінологій їхньої стандартизації.

Предмет та основні категорії термінознавства

Поняття термінознавство

Термінознавство як сучасна наукова дисципліна виникло у 30-ті роки XX століття на стику лінгвістики, логіки, філософії, інформатики, психології та інших наук.

Головною категорією у термінознавстві є поняття термін. Крім того, є ще певні сукупності мовних одиниць, які мають назви термінологія та терміносистема. Ці сукупності також є предметом досліджень у термінознавстві.

Отже, ми можемо визначити термінознавство як наукову дисципліну, що вивчає терміни, термінології й терміносистеми, їх закономірності створення та функціонування.

Проблема визначення поняття термін

У термінознавстві поки що немає загальноприйнятого визначення поняття термін, хоча існує чимало спроб це зробити (майже 19!). Чому це важко зробити? Через те, що термін є об'єктом декількох наук (філософії, логіки, лінгвістики, термінознавства тощо), і кожна з них намагається побачити ті ознаки у терміні, що є суттєвими з її погляду.

Розгляньмо декілька визначень терміна з погляду термінознавства. Деякі дослідники вважають, що термін - це окреме слово або утворене на базі іменника підрядне словосполучення, що означає професійне поняття й призначене для задоволення специфічних потреб спілкування у сфері певної професії (наукової, технічної, медичної, виробничої, управлінської тощо) [Головін, 1980, с 276].

Але погодитися з думкою, що термін може утворюватися тільки на базі іменника, важко через те, що, наприклад, у музичній термінології терміни можуть утворюватися і на базі прислівників (легато, адажіо тощо).

Відомий російський термінолог В.М. Лейчик сформулював визначення терміна як лексичної одиниці певної мови для спеціальних потреб, що позначає спільне - конкретне або абстрактне - поняття теорії певної спеціальної галузі знань або діяльності [Лейчик, 1998, с. 25].

У цьому визначенні підкреслюється, що термін - це виключно лексика мови для спеціальних потреб.

Наведемо ще одну дефініцію терміна. Термін - це мовний знак, що висловлює спеціальне поняття у відповідній системі понять. Автор цього визначення [Табанакова, 1999, с 30] , по-перше, називає суттєву ознаку терміна - системність, що відрізняє термін від нетерміна, а по-друге, дає визначення поняття "терміносистема" як системи понять певної галузі науки і техніки, де за кожним поняттям закріплено певний термін.

На наш погляд, останнє визначення найбільш відповідає статусу терміна та тим вимогам, що до нього висуваються.

Будь-яке наукове або технічне поняття обов'язково закріплюється вербально через те, що вербально не закріплені поняття, на жаль, залишаються тільки емпіричним досвідом окремої людини або групи людей і зникають разом з нею.

Процес вербального закріплення поняття відбувається у вигляді дефініції (визначення) та терміна.

Поняття дефініція

Дефініції формуються у процесі наукового дослідження. Вони мають тимчасовий характер, тому що постійно змінюються через вплив поглибленого наукового знання внаслідок прогресу науки та техніки.

Під дефініцією розуміють розгорнуте тлумачення поняття за допомогою певним чином побудованого речення.

Термін же розглядають як семантичний конденсат наукової дефініції тобто як наслідок формального спрощування синтаксичної конструкції наукової дефініції, але під час процесу спрощування зміст дефініції не змінюється. Отже, термін - це ім'я поняття.

Схематично це можна зобразити таким чином: