2.3 Представление текстовых данных.

Важнейшим источником информации являются тексты на естественных или искусственных языках. Каждый язык использует свою знаковую систему основанную на алфавите. Письменность можно рассматривать как метод представления на материальных носителях знаков звуковой системы разговорного языка.

Для записи слов были изобретены буквы, для указания оттенков речи - знаки препинания, сейчас известно множество средств позволяющих разнообразить письменные документы - шрифты, абзацы, заголовки, для создания четкой структуры документа используются главы, параграфы, оглавления, аннотации, для придания эстетического внешнего вида - различные спецэффекты.

Рассмотрим последовательно как кодируются символы, фрагменты текстов и наконец структуры документов.

Символы. Компьютеры работают только с двоичными кодами, поэтому, чтобы представить символ надо поставить ему в соответствие код, делается это заданием кодовой таблицы, помимо этого кодовая таблица ставит в соответствие кодам клавиши на клавиатуре и начертание на экране монитора. Обратная задача - интерпретация кодов осложнена тем, что в одном языке как правило существуют несколько кодовых таблиц это связано с тем, что кодовые таблицы разрабатывались в разных странах в разные времена. Наиболее популярна таблица ASCII (1981 г) использовала 1 байт (8бит) для представления символа и могла описать 2⁸=256 различных комбинаций т.е. символов, которые распределялись так с 0 до 127 коды основная таблица, со 128 по255 дополнительная. В основной располагались управляющие команды для принтеров, затем шли спецсимволы, знаки препинания, цифры, латинские буквы прописные и строчные. Дополнительная таблица отдавалась национальным алфавитам. Во многих странах Азии этого явно не хватило. В 1991 году производители программных продуктов (Microsoft, IBM, Apple) и стандартизаторы пришли к соглашению о выработке единого стандарта ISO 10646-1 ( тоже самое Unicode 3.0). Код построен по 31 битной схеме. Но используются 16 бит т.е. 65536 символов, где описаны цифры буквы латинского и многих национальных алфавитов, спецсимволы, знаки ариф операций и т.д.

Текстовые строки. Текстовая (символьная строка) - это конечна последовательность литер. Это может быть осмысленный текст или произвольный набор, короткое слово или целая книга. Длина символьной строки - это количество литер в ней. Записывается в память символьная строка двумя способами:

длина + текст;
текст + разделитель;

Текстовые документы.

Текстовые документы используются для хранения и обмена данными в информационных системах, но сплошной не разбитый на логические фрагменты текст воспринимается тяжело. Структурирование печатного теста достигается форматированием -специфическим расположением печати. Чтобы дать возможность анализа структуры были разработаны языки разметки, которые текстовые метки (маркеры или теги) используемые для обозначения частей документа записывают вместе с основным текстом в текстовом формате. Программы анализирующие текст считывая теги структурируют текст.

Представление звуковых данных.

Звук это упругая продольная волна в воздушной среде. Чтобы ее представить в виде читаемом компьютером необходимо звуковой сигнал преобразовать в электрический. Это делает микрофон, но электрический аналог звукового сигнала получается в непрерывной форме, не пригодной для компьютера. Чтобы перевести сигнал в читаемый цифровой вид, надо пропустить его через аналого-цифровой преобразователь (АЦП). При воспроизведении происходит обратное преобразование цифро-аналоговое (через ЦАП). Конструктивно АЦП и ЦАП находятся в звуковой карте компьютера.

Во время оцифровки сигнал дискретизируется по времени и по уровню, т.е. через каждый отрезок времени t (т.е. с частотой =1/t) измеряется сигнал с точностью x (т.е. весь диапазон сигнала от самого низкого до самого высокого разбивается на N=1/x квантов).

Возникают две задачи:

первое как часто надо измерять сигнал,

второе с какой точностью надо измерять сигнал, чтобы получить при воспроизведении звук удовлетворительного качества. Первая часть задачи решается теоремой Найквиста, которая утверждает, что, если сигнал оцифрован с частотой , то высшая слышимая частота будет не более /2. Вторая часть решается эмпирическим подбором, чтобы звук не имел высокого уровня шума и электронного оттенка.

Наивысшее качество получается при следующих параметрах оцифровки:

частота дискретизации 44.1 кгц

квантование 2 байта т.е. x=(X_max-X_min)/2¹⁶, т.е. 1 сек стерео звука займет 2*44 100*2=172 000 байт

Удовлетворительное качество получается при 8 кгц и 1 байте.

<<< < Предыдущая 1 2 3 45 / 125 6 7 8 9 10 11 12 > Следующая >>>

Соседние файлы в папке лекции

#
19.05.2015172.03 Кб1231лИнформ.doc
#
19.05.2015243.71 Кб1012.doc
#
19.05.2015252.42 Кб832лУстр.doc

2.3 Представление текстовых данных.

Представление звуковых данных.