Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекція 8.docx
Скачиваний:
3
Добавлен:
13.11.2018
Размер:
74.89 Кб
Скачать

3. Автоматичні словники

Спочатку автоматичними, або машинними, словниками називали будь-які словники, укладені при комп'ютерній підтримці. Але з часом виділилася група словників, укладених на комп'ютері й використовуваних саме комп'ютером у розв'язанні завдань комп'ютерного опрацювання тексту або створення певних систем такого опрацювання. Деякі з цих словників назвати так можна лише умовно, оскільки вони ні за реєстровими одиницями, ні за будовою не схожі на звичайні словники.

а) Автоматичні словники для розпізнавання мови

Класичним прикладом автоматичного словника може слугувати словник, призначений для розпізнавання мови, якою написано текст, що важливо, якщо треба опрацювати масив різномовних текстів. Наприклад, у масиві текстів є тексти українською, російською та білоруською мовою або англійські та німецькі тексти. У цьому випадку треба виявити ті риси, які властиві лише одній із зіставлюваних мов. Це можуть бути літери або буквосполучення, службові слова або слова високочастотні, специфічні для певної мови синтаксичні конструкції і т.ін. Під час зіставлення трьох вищезгаданих слов'янських мов виявляється, що літери ґ, ї властиві лише українській мові, у — лише білоруській, ъ - російській. Німецьку мову відрізняють від інших мов з латинським шрифтом літери ä, ő, ü, В; буквосполучення sch, яке в англійській мові зустрічається в поодиноких словах, а в німецькій на кожному кроці. В англійській мові немає літер, властивих лише для неї, але є буквосполучення th, яке в німецькій мові майже не зустрічається. Якщо взяти найчастотніші слова, то вони будуть різними для різних мов. Для англійської - the, to, for, а для німецької - die, der, das. Словник, призначений для розпізнавання мов, будується як таблиця, у якій стовпчики позначають зіставлювані мови, а рядки - диференційні ознаки, які їх розрізняють, що не схоже на звичайний словник, як ми звикли його бачити й уявляти.

Отже, в комп'ютерних словниках можуть бути такі реєстрові одиниці, таке їх поєднання та представлення, яких не буває у словниках паперових.

Можливості та процедури розпізнавання мови досить детально описала Л. М. Бєляєва. Авторка формулює дві особливості постановки задачі розпізнавання мови:

- із багатомовного масиву текстів треба виокремити всі тексти однієї, заздалегідь визначеної мови;

- треба розпізнати мову, якою написаний чи вимовлений кожний текст. Щодо цих двох можливостей існує два способи вирішення завдання розпізнання мови: розпізнання мови з заздалегідь відомого й заданого набору мов та розпізнання мови в ситуації, коли цей набір мов невідомий.

Розпізнавання має опиратися на розпізнавання діагностичних ознак, властивих лише певній мові і невластивих жодній іншій у даному наборі мов. Такими ознаками можуть бути як характеристики словоформ певної мови, так і частотні слова чи буквосполучення. Вибір процедури розпізнавання мови залежить від того, опис яких мов і який саме є в базі даних, яка використовується при вирішенні завдання. Авторка вважає, що для кожної мови треба мати діагностичні списки, які містять найчастотніші слова (переважно це службові слова) за винятком однобуквених, оскільки останні можуть належати до службової інформації. Найчастотніші слова покривають близько 20% будь-якого тексту, отже, обов'язково зустрінуться в тексті. Але треба мати на увазі, що такі слова в текстах різних функціональних стилів тієї самої мови будуть різними. Наприклад, в українських текстах п'єс перші десять слів (за спадом частот) - не, і, а, я, в, на, що, з, ти, ж, а в науково-технічних - в, і, з, на, що, при, для, у_, до, як. Спільними в цих списках є половина слів (непідкреслені).

Крім того, можлива наявність міжмовних омонімів, наприклад, рос. сор та англ. cop [kDp], укр. ре (нота) й рум. ре (на) та ін.

Заважають розпізнаванню мови також друкарські помилки, досить часті в комп'ютерних текстах.

Якщо використовувати специфічні для певної мови літери чи буквосполучення, то на перешкоді стає те, що в інтернеті, як правило, пропускають діакритичні знаки, тому німецькі ä, ő, ü не відрізнятимуться від а, о, u.

Отже, розпізнавання мови, якою написано текст, наштовхується на чималу кількість перешкод, тому справа ця не така легка, як здається на перший погляд, й укладання спеціальних автоматичних словників - важливе завдання, що стоїть перед комп'ютерною лексикографією.

б) Автоматичні словники для інформаційно-пошукових систем

Автоматичні словники, призначені для інформаційно-пошукових систем, у ролі реєстрових одиниць мають дескриптори, тобто ті слова чи словосполучення, які є ключовими для розкриття смислу тексту.

Дескриптори можуть бути різними за широтою змісту. Це означає, що у словнику дескрипторів вони розташовані ієрархічно, наприклад, за родо-видовими відношеннями. Ясно, що дескриптор більш широкого змісту притаманний більшому колу джерел. Якщо користувач у своєму запиті використовує більш широкий за змістом дескриптор, список виданих пошуковою системою джерел буде включати такі, що не мають безпосереднього відношення до теми запиту, це називається інформаційним шумом. Щоб уникнути інформаційного шуму, тобто одержати менший, але точніший список джерел, треба точно формулювати запит, використовуючи в ньому вужчі за змістом дескриптори.

Раціонально побудована інформаційно-пошукова система повинна бути відкритою, тобто дозволяти внесення в неї змін у процесі її використання. Такі зміни можуть бути пов’язані з необхідністю поповнити список дескрипторів або змінити їх системні відношення у зв'язку з указівкою на таку необхідність у формулюванні запитів. Можливо також, що якісь дескриптори варто вилучити з системи, оскільки, як показують запити, ці дескриптори дублюють один одного.

Словом, над удосконаленням словника дескрипторів й інформаційно-пошукової системи весь час працюють автори системи, про що користувач може догадатися лише з того, що у відповідь на свої запити він одержує списки джерел з усе меншим шумом. Досить досконала інформаційно-пошукова система може також коригувати запити користувачів, пристосовуючи їх до принципів будови системи і цим самим сприяючи кращому розумінню між комп'ютером і користувачем-людиною. Про таку систему кажуть, що вона є самонавчальною, тобто такою, що враховує неточності й у будові словника дескрипторів і системи в цілому, й у запитах користувачів.

Всяка інформаційно-пошукова система тісно пов'язана з певною предметною ділянкою. Це необхідно для уникнення інформаційного шуму, який виникає внаслідок омонімічних термінів у різних науках. Наприклад, термін КОРПУС має істотно різне значення у військовій справі й літако- чи суднобудуванні; слово КВАДРАТ має різні значення в геометрії й алгебрі; СТАН позначає різні поняття в мовознавстві й описі зовнішності людини. Таких прикладів можна навести дуже багато. Орієнтація ж інформаційно-пошукової системи на вужчу, чіткіше окреслену предметну ділянку забезпечить ефективніше її використання.

Зараз існує чимало різних інформаційно-пошукових систем в інтернеті, з одного боку, безплатних багатогалузевих. як-от Google, Yahoo, Yandex, з іншого - платних, що є власністю тієї фірми, на сайті якої ця система розміщена, або вузькоспеціалізованих, що теж розміщуються на сайтах певних фірм чи компаній і дають інформацію, яка стосується тільки цієї фірми, наприклад, розклад руху літаків.

Багатогалузеві інформаційно-пошукові системи пред'являють підвищені вимоги до запиту: він має складатися не з одного дескриптора (ключового слова), а з кількох, які уточнюють зміст першого. Інакше у відповідь на запит буде дуже великий інформаційний шум. Наприклад, на запит президент буде видано величезний список президентів усіх країн й установ усіх років. Якщо дати запит у вигляді президент США, то відповіддю буде список усіх президентів США. Якщо ж ви хочете довідатися, хто був президентом США у 1948 році, то й запит повинен бути: президент США у 1948 році.

При цьому користувач не знає принципів будови багатогалузевої системи, він може опосередковано мати уявлення про неї, аналізуючи відповіді на свої запити. Більш того, розробники будь-якої системи зберігають у таємниці будову і її частин, і цілої системи, це професійна таємниця, know-how. Нею є будь-яка програма, що є основою будови й використання системи.

З розвитком систем машинного перекладу набуло поширення словників, спеціально призначених для систем МП. І хоч успіхи МП не такі вже й великі, кількість експериментальних систем МП, а значить і словників для них, невпинно зростає.

в) Словники для машинного перекладу

Щоб перекласти текст з однієї мови на іншу, необхідно виконати такі етапи роботи:

- зрозуміти текст, який треба перекласти; це можливо за умови, якщо перекладач знає граматику вихідної мови, тобто, словозмінні форми кожного слова в перекладеному тексті, а також правила поєднання слів у реченні;

- вміти поставити у відповідність кожному слову й кожній конструкції слово у потрібній формі, як цього вимагає граматика вхідної мови, тобто мови, на яку перекладається текст, а також правильно побудувати речення.

Для комп'ютера слово "зрозуміти" нічого не значить, його треба замінити висловом "поставити у відповідність певним формам слів семантичну інформацію словника". Отже, перше завдання розробника системи машинного перекладу полягає у створенні підсистем морфологічного та синтаксичного аналізу перекладуваного тексту. Підсистема морфологічного аналізу забезпечується словником, у якому наводиться повна парадигма відмінюваних слів і можливі варіанти невідмінюваних. Укладанню такого словника передує дослідження, спрямоване на встановлення типів відмінювання та класів відмінюваних слів, що характеризуються певними флексіями та, можливо, змінами в корені чи основі відмінюваного слова. Словникову статтю у такому словнику можна побудувати, навівши або повну парадигму, або основу слова та набір властивих слову флексій. Основою слова у цьому випадку вважають незмінну частину слова, до якої додають флексії, наприклад: сл-ово, сл-ова, сл-ову, сл-ів і т.ін. Як бачимо, виділена основа не, збігається з тією, яка встановлюється шкільними граматиками, тому її називають квазіосновою.

Для флективної мови краще використовувати другий підхід, оскільки наведення повної парадигми кожного слова робить словник занадто довгим і незручним для користування. Якщо ж виділити основу й набір флексій, то цей набір може повторюватися з багатьма основами і слугувати показником парадигматичного класу, тобто тієї множини основ, яка характеризується саме таким набором флексій. Годі й основі, й даному набору флексій приписується номер парадигматичного класу, за цим номером знаходять основи, відмінювання яких відбувається шляхом приєднання набору флексій, якому приписано той самий номер, що й основі.

Для мови аналітичної, наприклад, англійської, цей підхід має обмежене застосування, оскільки більшість словозмінних форм у ній створюється не додаванням афіксів до відмінюваного слова, а сполученням його з допоміжними словами, які є основними виразниками словозмінної форми прикметника чи дієслова, наприклад: most interesting - найцікавіший, does not go — не йде. Особливо розгалуженою є система дієслівних аналітичних форм. При цьому відмінюване дієслово вживається в одній із чотирьох основних форм, кожна з яких утворюється синтетично або додаванням афіксів -ing, -ed для регулярних дієслів, або зміною слова для нерегулярних. Відмінюване дієслово не змінює форми для всієї групи певного часу, а конкретні форми цієї групи виражаються зміною допоміжного дієслова, наприклад: am reading, is reading, are reading.

Отже, визначення словозмінної форми в аналітичних формах здійснюється у два етапи:

1) визначення основної форми аналітичного дієслова, яка створюється синтетично,

2) визначення сполучення з допоміжним дієсловом, яке змінюється залежно від словозмінної форми. Наприклад, якщо відмінюване дієслово має форму Participle II, то воно може сполучатися з допоміжним дієсловом have для утворення перфектних форм (have written, has written, had written) або з дієсловом be для утворення пасивного стану (is written, was written, і т.д.).

Для обох типів мов слід розрізнювати форми, що утворюються за певними правилами (регулярні форми), для яких будова словникової статті така сама, що й для флективної мови, й нерегулярні форми, які слід наводити повністю.

Результати морфологічного аналізу слугують вихідним матеріалом для підсистеми синтаксичного аналізу, який встановлює правила поєднання слів певних парадигматичних класів між собою, що приводить до утворення правильних синтаксичних конструкцій, і зрештою визначає структуру речення.

Це дві підсистеми автоматичного аналізу перекладуваного тексту. їм відповідають дві підсистеми, спрямовані на синтаксичний і морфологічний синтез одиниць вихідної мови, на яку відбувається переклад. Вони теж створюються як системи правил, по-перше, відповідності структури вихідної мови структурам, встановленим для вхідної мови, та відповідність словозмінних форм вхідної мови формам мови, з якої текст перекладається.

Крім цих підсистем формального аналізу повинна бути підсистема власне перекладу, тобто встановлення семантичних відповідностей між перекладуваним та перекладеним словом, синтаксичною конструкцією або цілим реченням.

Отже, автоматичний словник для машинного перекладу - це серія словників:

а) морфологічного аналізу,

б) синтаксичного аналізу,

в) синтаксичного синтезу,

г) морфологічного синтезу, які будуються здебільшого у вигляді таблиць, та словника, семантичного, у якому для кожного слова перекладуваної мови наводяться значення у мові, на яку здійснюється переклад (див. Рис. 1).

Семанти­чний словник → текст

Рис. 1 Взаємодія автоматичних словників машинного перекладу

Відразу виникає питання: що має містити семантичний словник для МП, чим він відрізняється від інших автоматичних словників? Перше, що спадає на думку: цей словник має містити частотну лексику. Ну, а якщо в перекладуваному тексті трапляються нечастотні слова? А вони є в будь-якому тексті, їх значно більше, ніж частотних, а тим більш високочастотних слів. У частотних словниках яскраво виявляється закон переваги: невелика кількість високочастотних слів, значно більше слів середньої частоти, а за ними тягнеться велика кількість низькочастотних слів. Отже, не вміщувати у словник для МП низькочастотні слова означає не змогти забезпечити повний переклад тексту за таким словником. Словник для МП має бути якомога більшим за обсягом, щоб кількість слів, що трапляються в перекладуваному тексті, але не зареєстровані в словнику для МП, становила незначну частину тексту і не заважала розуміти текст.

А скільки ж слів треба вмістити у словник для МП, щоб він задовольняв цю вимогу? Щоб відповісти на це питання, треба здійснити спеціальне дослідження: укласти серію ЧС різних текстів тієї галузі науки чи техніки, для перекладу якої створюється система. За ранговими списками цих ЧС можна з’ясувати, яка кількість і яких саме слів покривають певний відсоток тексту. Зіставивши одержані для різних текстів дані, можна досить точно визначити реєстр майбутнього словника для МП.

Поки що обсяг реєстру перекладного словника для МП встановлюється інтуїтивно. Так, Л. М. Бєляєва вважає, що словникова база має містити не менше 50000 реєстрових слів.

Семантизація реєстрового слова, тобто вказівка на його значення, відбувається по-різному в різних системах МП. Наприклад, у системі МП, яка створюється в Мовно-інформаційному фонді Інституту мовознавства УАН, укладається багатомовний словник, оскільки планується, що створювана система здійснюватиме переклад з української мови на кілька мов - англійську, німецьку, французьку, турецьку, російську. Семантизація слова здійснюється через його тлумачення, вихідною мовою є українська. З тлумачного словника виписують слово з його тлумаченням. Якщо слово має кілька тлумачень, його виписують стільки разів, скільки тлумачень у нього є. За тлумаченням слову приписують номер семантичної групи. Потім за синонімічним словником виписують синоніми до реєстрового слова, яким можна приписати те саме тлумачення. Розташовують їх за спадом семантичної близькості й усі разом утворюють семантичну групу, якій присвоюється певний номер.

Далі зі словників вхідних мов, на які буде здійснюватися переклад, виписують слова, що мають те саме значення, що й українське слово, і їхні синоніми, які теж розташовуються за спадом семантичної спільності. Цій семантичній групі присвоюється той самий номер, що й відповідній українській семантичній групі. За спільністю номерів семантичних, груп перебуває відповідник українського слова в даній мові.

В українській частині словника уже зараз нараховується 208920 слів, яким відповідають 7000 тлумачень, у російській - 168000, в англійській -215000.

Словникова стаття має такий вигляд:

1) реєстрове слово у вихідній формі;

2) вказівка на лексичні омоніми, номери яких містяться в іншому словнику, на який у даній статті робиться посилання;

3) лексико-граматичний клас та його код (відсилка до таблиці словозмінних типів, їх ознак і номерів);

4) номер парадигматичного класу (відсилка до таблиці словозмінних типів, їх ознак і номерів);

5) тлумачення (номер семантичної групи та ранг слова у цій групі, у якій слова розташовані за спадом семантичної близькості), наприклад, семантична група № 1, якій відповідає тлумачення "намагатися запам'ятати" містить такі українські й російські слова з їх рангами:

українські

1.заучувати

2.завчати

3. виучувати

4.вивчати

5. учити, вчити

російські

1.заучивать

2. выучивать

3. разучивать

4. учить

Кожна таблиця, до якої є відсилки від статті цього словника, має свою будову. Наприклад, таблиця словозмінних типів вміщує такі рубрики:

а) квазіфлексія,

б) номер парадигматичного класу,

в) граматичний клас, який приблизно відповідає частині мови,

г) номер граматичної форми в парадигмі.

Виходить, що для МП потрібен не звичайний перекладний словник, а ціла серія взаємопов'язаних таблиць різної будови й різного призначення, які у своїй сукупності забезпечують машинні процедури аналізу вихідного й синтезу вхідного тексту, який і є перекладом.

При цьому для тексту вихідного, який треба перекласти, і для тексту вхідного, тобто перекладу, будуються різні системи правил, зважаючи на те, що це різні мови, й на те, що правила аналізу й синтезу одиниць навіть однієї мови відрізняються одне від одного.

Виникає також питання: що має слугувати реєстровою одиницею семантичного словника для МП: слово, словоформа чи основа слова? Різні системи МП по-різному вирішують це питання. Якщо взяти реєстровою одиницею основу, не треба формулювати правила про те, скільки літер треба відкинути від слова, щоб одержати основу, а це спрощує систему правил МП.

Якщо зробити реєстровою одиницею словозмінну форму, то, здавалось би, алгоритм іще більше спрощується, оскільки ми маємо не синтезувати словоформи, а брати вже готові. Але при такому підході у кілька разів збільшується кількість реєстрових одиниць, що не можна вважати доцільним при укладанні словника. Тому такий шлях формування реєстру словника для МП практично не використовується.

Є спроба реєстровими одиницями взяти не лексичні одиниці, а синтаксично організовані словосполучення, особливо усталені, які, по-перше, досить частотні, а, по-друге, є готовими блоками для побудови речення у перекладеному тексті, тобто, знімається частина правил, що стосуються синтезу речення перекладеного тексту. Цей підхід має переваги, але для його реалізації необхідно здійснити попереднє дослідження, щоб виявити такі словосполучення та їх відповідники у вихідному тексті, тобто побудувати перекладний словник словосполучень, властивих текстам даної тематики чи предметної області.

Зараз уже майже не викликає заперечень те, що найраціональніше створювати систему МП для досить вузької предметної галузі. Адже тексти будь-якої галузі науки чи техніки мають свої особливості лексичного й граматичного характеру, тому будувати систему МП и укладати словники для однорідних щодо цього текстів простіше, та й діяти вона буде ефективніше.

Тривалий час у справі побудови систем МП не враховували необхідність попереднього статистичного аналізу текстів і результатів його під час створення систем МП, що, безсумнівно, гальмувало розвиток машинного перекладу, оскільки апріорний підхід, на якому базувалися розробники таких систем, не міг дати позитивних результатів. Це переконливо аргументував проф. Р. Г. Піотровський.

Безумовно, врахування кількісних характеристик тексту значно полегшило б побудову систем МП й сприяло б удосконаленню автоматичних словників для МП.

г) Автоматичні словники для комп'ютерного розуміння смислу тексту

Тривалий час комп'ютерні дослідження були спрямовані лише на формально-граматичний аналіз тексту, не ставлячи своєю метою семантичний аналіз. Вважали, що здійснити семантичний аналіз тексту, домогтися того, щоб комп'ютер розумів смисл тексту - просто неможливо. Щоправда, окремі групи лінгвістів вели пошуки в цьому напрямі, але досягнення їхніх зусиль більш ніж скромні.

Однак здійснення комп'ютерного семантичного аналізу тексту - чи не найважливіше завдання комп'ютерної лінгвістики, оскільки він є запорукою розв'язання низки практичних завдань, таких як машинний переклад, інформаційний пошук, автоматичне реферування й анотування тексту. Успішне здійснення їх неможливе без комп'ютерного розуміння тексту.

Як розуміє текст людина? Що їй треба знати, щоб зрозуміти текст? По-перше, необхідно знати значення кожного слова, тобто співвіднести ланцюжок літер, яким є слово, з поняттям, яке цим ланцюжком відображається. Але значення слова може змінюватися залежно від того, з якими словами воно сполучається. Отже, треба знати, як впливає сполучення з тим чи іншим словом на значення слова. Тобто, треба знати вплив речення, в якому слово вжито, на семантику слова. Але й цього не досить, необхідно також знати, як поєднуються речення в тексті, як випливає смисл тексту з поєднання речень. Адже для тексту має значення не лише смисл кожного речення, а й порядок їх розташування. Цілком можливо, що зміна порядку слідування речень приводить до порушення цілісності тексту. Візьмімо невеличкий текст: "Іван Петрович - наш учитель математики. Він дуже любить свій предмет." Якщо ми змінимо порядок речень, текст як ціле зникає, між реченнями немає зв'язку. При цьому слід мати на увазі, що у своєму сприйманні тексту людина спирається на свої фонові знання, життєвий досвід, який вона набула. Тому багато чого в тексті людина зрозуміє підсвідомо, навіть якщо воно експліцитно не виражено. А оскільки життєвий досвід, а, отже, й фонові знання, у різних людей різні, то й розуміння того самого тексту ними може бути різним.

Поставимо на місце людини комп'ютер. Щоб він "знав" значення слова, слід виразити це значення через якісь формальні одиниці - семантичні множники у словниковій дефініції слова, символи певної метамови, якими виражають елементи значення, дескриптори, тобто лексичні одиниці, які є ключовими для вираження значення і представлені формальним способом, який може сприймати комп'ютер, та ін.

Про сполучуваність слів комп'ютер може одержати інформацію з конкордансу, але як вона впливає і чи впливає на зміну значення слова, з конкордансу дізнатися не можна, тут слід здійснити спеціальні дослідження, які повинні показати комп'ютерові в явному вигляді, які саме зміни відбулися.

Спеціальних досліджень вимагає також розкриття особливостей поєднання речень у тексті і вплив такого поєднання на смисл тексту. При здійсненні описаних досліджень необхідно виходити за межі мови, в позамовну дійсність, оскільки семантика - це вираження зв'язку між системою мови та предметами, явищами І поняттями оточуючої нас дійсності. В цьому, а також у тому, як саме людське мислення відображає ці зв'язки в мовленні, - трудність побудови систем автоматичного семантичного аналізу.

Існує чимало експериментальних систем автоматичного семантичного аналізу. Основними складниками кожної з них є семантичний словник і правила семантичного аналізу, які повинні визначати семантичні зв'язки між словами. Як правило, набір цих зв'язків обмежується набором синтаксичних та парадигматичних зв'язків, наявних в автоматичному синтаксичному аналізі. Але слід зазначити, що ці зв'язки не виходять за межі речення, отже, не дають достатньої інформації про смисл тексту, а, отже, про те, що таке автоматичне розуміння тексту.

Що ж означає "автоматичне розуміння тексту"? Н.М.Леонтьева вважає, що комп'ютер "зрозумів" текст, якщо він:

- видав стислий зміст (реферат) цього тексту;

- може відповідати на питання до цього тексту:

- може за описом намалювати відповідну картинку або схему; може відобразити описані дані в іншій формі, наприклад, таблиці;

- може порівняти змісти двох різних текстів і повідомити, що в них спільного й відмінного.

Щоб реалізувати будь-який вид розуміння комп'ютером змісту, йому треба надати багато вихідних даних у вигляді лінгвістичних та предметних знань з тої галузі, до якої належить текст (словники, граматики, алгоритми і т. ін.), у зрозумілій для комп'ютера формі, з якої ці дані можна перевести на мову програми. Однак, до розв'язання цих завдань теоретична лінгвістика ще не готова.

Але розробниками різних систем опрацювання тексту на комп'ютері накопичено досвід автоматичного аналізу, в тому числі й семантичного. Ясно, що перш за все необхідно укласти семантичні словники, в яких у доступному для комп'ютера вигляді дається інформація про зв'язки слова, тобто ланцюжка літер, з поняттям, яке цим ланцюжком виражається. При цьому, як підкреслює Н. М. Леонтьева, яка зосередила свої зусилля саме на створенні систем автоматичного розуміння тексту, необхідно зберегти в словникових описах ідею рівнів, тобто розмежування морфологічних, синтаксичних, семантичних й онтологічних даних. У достатньо розвинутому словнику мають відображатися відношення похідності та сполучуваності лексем. Якщо словник укладається для систем розуміння тексту, то не можна обійтися без опису предметної галузі, тобто без інформації парадигматичної.

Одним із словників, призначених для комп'ютерного розуміння тексту, є словниковий комплекс РУСЛАН, укладання якого почалося ще в 1999 році в науково-дослідному обчислювальному центрі МДУ ім. М. В. Ломоносова. Структура цього словникового комплексу розроблена з великим запасом, щоб на нього можна було б спиратися у розв'язанні не лише сьогоднішніх складних завдань автоматичного опрацювання тексту, але й майбутніх завдань.

Комплекс складається з кількох частин:

1) словник повноцінних лексем;

2) службові частини мови (прийменники, сполучники, усталені словосполучення, частки і т. д.); це все - слова-відношення прийнятої в системі семантичної мови;

3) вільні й напіввільні словосполучення й терміни, яким приписується лише загальнолінгвістична семантична інформація;

4) списки елементів метамови, в тому числі не термінальні символи (НТС), опис їх семантики задасться словниковим способом;

5) ряд словників предметної галузі, тут розміщується специфічна для кожної галузі термінологія з тезаурусною та енциклопедичною інформацією.

Усі ці словники, кожен з яких є окремою базою даних, разом утворюють єдиний гіперсловник системи автоматичного опрацювання текстів.

Розмежування значень багатозначного слова у словнику огрублюється порівняно з сучасною "людською" лексикографією: виділяється стільки значень, скільки можна забезпечити формальними контекстами.

Робота над поповненням й удосконаленням словника ведеться весь час. Велика увага приділяється наведенням текстових прикладів: лаконічні й переконливі приклади, по-перше, роблять словник більш читабельним, у тому числі й для розробників системи, по-друге, у майбутньому полегшать розмежування семантичної багатозначності, по-третє, створюють досить ефективний ресурс поповнення словника новою лексикою.

Отже, можна чекати, що розв'язання проблеми комп'ютерного розуміння тексту - справа не дуже далекого майбутнього. Значною мірою воно залежить від комп'ютерної лексикографії.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]