
- •Лекція 8
- •Тема 9. Базові технології формування і представлення інформаційних ресурсів План
- •1. Моделі інформаційних об’єктів
- •2. Текстові документи як цифрові об’єкти
- •7.4. Кодировки символов
- •7.5. Оформление текстов и стили
- •7.6. Языки разметки
- •3. Лінгвістичне забезпечення інформаційних систем
- •4. Метадані
Лекція 8
Тема 9. Базові технології формування і представлення інформаційних ресурсів План
Моделі інформаційних об’єктів
Текстові документи як цифрові об’єкти
Лінгвістичне забезпечення інформаційних систем
Метадані
1. Моделі інформаційних об’єктів
Сучасні інформаційні системи здатні зберігати, розповсюджувати та обробляти будь-яку інформацію, яка може бути представлена у цифровій формі.
Єдиної класифікації типів інформаційних (цифрових) об’єктів не існує. Розвиток уявлень про типи цих об'єктів відбувався по-різному в різних напрямах інформатики.
Найбільш загальним і поширеним способом поділу інформаційних об'єктів, представлених в звичайному письмовому вигляді, можна вважати виділення добре структурованої інформації, іноді її називають дані, і погано структурованої, куди зазвичай відносять текстову інформацію.
Самостійним типом, що до останніх років розвивався практично незалежно, є різна мультимедійна інформація: аудіо, графічна, цифрові фільми та інші рухомі зображення.
Однак серед графічних об'єктів особливе місце зайняли, з одного боку, географічні карти, часто звані геодані, з іншого – креслення і різні моделі тривимірних фізичних об'єктів, з третього – інтерактивні графічні об'єкти – віртуальна реальність. Спеціальним, але дуже важливим видом останніх є також рухомі об'єкти – анімація.
У деяких публікаціях, а також у ряді стандартів виділяються й інші види інформаційних об'єктів, наприклад темпоральні (ті, що існують або змінюються в часі), програмні засоби, інформаційні послуги та ін..
Таким чином, кількість типів інформаційних об'єктів та принципи їх виділення є на сьогоднішній день невирішеною проблемою інформатики. В межах різних стандартів, що застосовуються в тих чи інших технологіях, наприклад в електронній пошті або вебі, є ті чи інші способи вказівки типів об'єктів, а також форматів їх подання.
2. Текстові документи як цифрові об’єкти
Для представлення текстів в електронному вигляді можливі два способа: у вигляді графічного зображення (образу) або посимвольне кодування.
Кожен спосіб має свої переваги і недоліки. Кодування дає можливість посимвольної обробки текстів і, отже, різноманітних варіантів роботи з ними (пошук, редагування, експорт, імпорт і т. д.).
Подання у вигляді графічного образу таких можливостей не дає, але зате дозволяє зберегти індивідуальні особливості тексту чи забезпечує достовірність електронного подання в порівнянні з друкованим оригіналом. Тому оцифровка древніх рукописів особливо цінних документів або текстів, до достовірності яких пред'являються особливі вимоги, здійснюється у вигляді графічних образів.
Крім того, переклад тексту з паперового варіанту в електронний в символьному вигляді значно дорожчий, оскільки спочатку здійснюється сканування з перекладом в електронну форму у вигляді графічного образу, а потім вже розпізнавання знаків тексту за допомогою програм оптичного розпізнавання символів .
Альтернативою технології сканування – розпізнавання – коректура є технологія ручного вводу (передрук) тексту, яка в багатьох випадках виявляється дешевшою.
К тому же представление текста в виде образа требует очень много машинной памяти для хранения, особенно при использовании сканирования с высоким разрешением. При попытке достичь качества, сопоставимого с художественной фотографией, возникают гигантские файлы, достигающие 1 Гб на один рисунок. Но даже обычная страница черно-белого текста требует в 50—100 раз больше места, чем тот же текст в символьном виде.
При выборе способа электронного представления текста (графического или символьного) нужно также иметь в виду, что многие документы (включая полиграфические издания) в настоящее время готовятся в электронном виде (причем тексты всегда в символьных форматах), поэтому их ввод в информационную систему часто не требует дополнительных преобразований.