
27. Тезауруси для концептуального індексування
Основною метою розробки традиційних інформаційно-пошукових тезаурусів є використання їх одиниць (дескрипторів) для опису основних тем документів в процесі ручного індексування. За своєю суттю тезаурус для ручного індексування є штучним мовою опису, побудованим на основі природної мови. При цьому сам процес індексування за таким тезаурусу базується на лінгвістичних, граматичних знаннях, а також знаннях про предметну область, які є у професійних індексаторів текстів. Індексатор спочатку повинен прочитати текст, зрозуміти його і потім викласти зміст тексту, користуючись дескрипторами інформаційно-пошукового тезауруса. Індексатор повинен добре розуміти всю термінологію, використану в тексті, - для опису основної теми тексту йому знадобиться значно меншу кількість термінів.
Розробка тезауруса для автоматичного індексування (далі - АІ тезауруса) характеризується перш за все необхідністю опису значно більшої кількості слів і словосполучень, що зустрічаються в текстах даної предметної області. АІ тезаурус повинен не тільки включати терміни, які представляють важливі поняття в текстах даної предметної області, але також охоплювати широке коло більш специфічних термінів, виявлення яких у конкретному тексті зробить цей текст релевантним запиту за поняттями більш високого рівня. Наприклад, мають бути описані не тільки дескриптор РИБА і його основні підрозділи, такі як МОРСЬКІ РИБИ, анадромні риби і т.п., але і значну кількість конкретних видів риб, з тим щоб текст, обговорює проблеми вилову минтая, міг би бути отриманий при пошуку по терміну риба.
Синонімічні ряди понять повинні бути значно багатшими, ніж сукупності варіантів дескриптора в тезаурусі для ручного індексування, оскільки синоніми повинні описувати різні способи вираження цього поняття в тексті для автоматичного процесу, а не для людини. Ряди синонімів включають в себе не тільки іменники і іменні групи, а також прикметники, дієслова та дієслівні групи. Розширення термінологічної бази АІ-тезауруса веде до необхідності опису багатозначних термінів.
Розширення понятійної бази тезауруса веде до збільшення і ускладнення функцій відносин між поняттями тезауруса (концептуальними відносинами): виникає необхідність логічного висновку відносин, оскільки описати відносини всіх дескрипторів з усіма близькими дескрипторами АІ-тезауруса стає трудомістким заняттям і ускладнює перевірку таких описів.
З 1994 року в АНО ЦІІ почалася розробка Громадсько-політичного інформаційно-пошукового тезауруса (російськомовного) як ресурсу для автоматичного індексування. Суспільно-політичний тезаурус включає в себе термінологію економічної, політичної, військової, фінансової, законодавчої, соціальної, культурної та інших сфер діяльності - термінологію, яка зустрічається в таких загальнозначимих документах, як офіційні і законодавчі документи, міжнародні договори, повідомлення інформаційних агентств та газетні публікації .