Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
04.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
294.4 Кб
Скачать

Варіант вирішення завдання

Для вирішення даної задачі використовується спеціалізована база знань, в яку імпортуються стандартизовані матеріали. У базі знань накопичуються відомості про предметних областях, правила очищення та розбору текстів. Працює це таким чином.

Перед початком розбору користувач формує шаблон розбору для конкретної предметної області, на основі якого в подальшому і проводиться аналіз текстів. Наприклад:

Предметна область

Периферійні пристрої ПК

Шаблон разбору

Тип пристрою

Торгова марка

Виробник

ГОСТ

Інтерфейс

Сумісність

Сертифікати

Колір

Після підготовки такого шаблону і починається, власне, робота з розбору тексту.

Перші тексти користувач розбирає самостійно, тобто вказує, що "клавіатура" - це тип пристрою, "сірий" - це колір. При цьому він фактично навчає програму, як треба розбирати дані. У міру того, як програмі показують все більше прикладів, вона накопичує все більше знань і починає вгадувати все більше варіантів розбору.

Сильною стороною таких систем використання самонавчальних алгоритмів, що дозволяють відразу навчатися правилам розбору, з врахуванням особливостей конкретної предметної області. Завдяки такому підходу система, спочатку не маючи жодних закладених алгоритмів розбору, по мірі роботи навчається і починає допомагати користувачу, пропонуючи правильні варіанти розбору. В системі використовуються оригінальні ефективні алгоритми, що дозволяють коректно аналізувати текст з помилками, пропущеними та / або зайвими словами і різними варіантами розташування слів.

Якщо користувач починає працювати з предметною областю, яка є відмінною від попередньої, але досить близькою до неї, система в змозі використати раніше знайдені правила розбору, тобто якщо після опису клавіатур перейти до розбору відомостей про монітори, система буде в змозі використати "досвід", накопичений при аналізі клавіатур.

Результати

Системи на практиці демонструють добрі результати розбору, причому незалежно від мови. Після початку роботи з розбору тексту по якої предметної області, обробивши буквально кілька десятків текстів, програма починає "вгадувати", як правильно потрібно розбирати і по мірі накопичення знань збільшує точність розбору, досить швидко доходячи до рівня 80-90% вірно оброблених текстів .

В результаті використання таких систем маємо значні переваги, по-перше, значно (у рази) збільшити швидкість обробки текстів, по-друге, підвищити якість завдяки тому, що одні й ті ж терміни завжди розбираються ідентично. При ручній обробці періодично виникають різночитання. По-третє, після "навчання системи" використовувати менш кваліфіковані кадри для обробки значної частини текстів, тобто підвищити ефективної роботи.

Перспективною сферою в подібних системах є підтримка процесу перекладу. Система автоматично створює і поповнює словники, тому маючи переклади слів, можливий автоматичний переклад вже стандартизованого тексту та генерація на їх основі багатомовних прайс-листів, буклетів, описів тощо.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]