Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Болгарчук Р. - Книга 3.0 Слушайте! 2017.docx
Скачиваний:
24
Добавлен:
01.12.2019
Размер:
23.66 Mб
Скачать

5 Преимущества распознанного (так называемого ocRтекста):

От части те же преимущества были указаны и в подразделе «8 преимуществ которые дают цифровые книги.» поэтому просто напомню.

1 – малый размер,

2 – более простая возможность редактирования,

3 – удобное иногда автоматическое добавления закладок,

4 – поиск по тексту (который не возможен, если текст является картинкой),

5 – одно из самых главных преимуществ, которым многие пока не пользуются, является возможность прослушать текст с помощью синтезаторов речи. Я так переслушал массу книг. Конечно, на этом преимущества распознанных текстов не кончаются, но это для меня 5 основных.

Таким образом, чтобы проработать книгу мне не раз приходилось её либо сканировать или фотографировать, либо уже сканированные скачанные с интернета книги переводить в понятные компьютеру буквы, а не фотографии букв, видных лишь на экране. Хотя благо в интернете все больше появляется хорошо проработанных книг, в которых есть сам текст, а не только его фотография или изначально цифровых. Тем не менее, как уже писал, достаточно много людей не умеют, или не хотят пользоваться данными возможностями, не смотря на все их преимущества. Но это уже другая социальная проблема, которую уже рассматривал ранее, но постараюсь на ней еще остановиться. Так же в другой статье более подробно рассмотрю разницу между распознанным и не распознанным текстом, но уже так сказать глазами ЭВМ.

Код буквы и картинки – книга глазами эвм.

В прошлой статье мною затронута тема удобства использования электронных книг. В этой для большего понимания возникновения таких преимуществ постараюсь, очень приблизительно, описать саму суть различий рисованного текста и распознанного. Как я это понимаю, но так сказать глазами ЭВМ.

Распознанный или набранный на компьютере текст, представляет совой векторные символы.

Грубо говоря, это линии как на графике, описанном какой-либо формулой. Но именно в данном случае наверно целесообразнее назвать его кодом, т.к. сами картинки линий в виде крохотных рисунков записаны отдельно и их роль не существенна, т.к. при каждой новой букве, исходя из её кода, отображается один и тот же рисунок. Т.е. для того что бы отобразить все буквы «а» в тексте компьютер использует один маленький рисунок самой буквы «а». Один для всех букв (если её формат одинаков).

А сама буква записана в виде очень короткого кода в виде нуля и единиц. К примеру: буква «а» в таком коде будет представлять собой вот такую последовательность сигналов «11010000» в кодировке ISO 8859-5. Единица, как известно это присутствие сигнала, а «0» его отсутствие. И того получается, что бы компьютер понял одну букву ему достаточно 8 сигналов.

Теперь разберем растровые (точки) картинки.

-- тут уже для того что бы отобразить именно картинку той же буквы «а», понадобиться целый массив точечек. Если изображение черно-белое, то расположенных в определенной очередности черных и белых точек, которые и будут «рисунком» буквы. Причем на каждую нарисованную точку потребуется те же 8 сигналов. Но уже не на всю букву, а только на одну точку. Естественно одной черной точкой нарисовать букву «а» не получится. А какое минимальное количество точек нужно для прорисовки буквы вообразите сами (100 битов вместо 8). Но то, что не одна и не две или три это очевидно. Посему и картинки так много весят. К тому же, в отличие от кода, в котором компьютер как бы знает, что это та или иная буква, в случае с картинкой, ему абсолютно все равно, что нарисовано. Т.е. оперировать буквой как буквой он уже не может, а просто слепо копирует изображение, перенося каждую точку. Если в первом случае все буквы в тексте как бы одинаковы, то во-втором, приходится постоянно рисовать и каждую новую букву, (даже если она идентична предыдущей – «аа»), и рисовать всё вокруг букв. Получается если в обычном тексте (набранном в ворде) встречается, к примеру: 2000 букв – «а», то рисунок самой буквы используется только один (постоянно повторяется и не занимает место). Кстати количество букв в таком тексте можно увидеть в статистике. А вот если аналогичный текст, рисованный (не распознанный) то все 2000 букв «а» будут прорисовываться снова и снова и для каждой с них как бы будет 2000 картинок вместо 1. Они сами по себе занимают на много больше места, и кроме как отобразить их на экране с ходу с ними не чего не сделаешь (ни поиска по тексту, ни статистики, ни прослушки). Для ЭВМ это просто набор черных и белых точек, а не определенный код символов. Он может отобразить на экране любую картинку. Но картинка может быть слепо отраженными точками разного цвета либо конкретным знаком на экране, который отличается и понимается компьютером.

Вот поэтому с картинками текста и работать полноценно невозможно и места занимают они в десятки раз больше. Из-за чего, по возможности, (если книга сохранена как картинка), перевожу её в текст. После чего текст можно и послушать и закладки удобно сделать, и что-то выделить, и т.д. Но не все книги удается корректно перевести в текст. Поскольку даже самые лучшие программы для распознания текста, к сожалению, наверно еще долго будут требовать корректировки. Многие тексты содержат картинки, формулы, которые трудно распознать. Поэтому приходится сохранять текст вместе с изображением. Конечно, можно было просто распознать изображение текста и сохранить его оставив и картинку, но работать с такими двумя документами не удобно. Удобно, когда в одном документе можно и прочесть что-то - сделав закладку или прослушав и в нем же на той же странице посмотреть картинку. Вот, к примеру: результат такого сложного текста с картинкой иллюстрированный мною атлас. В тексте конечно ошибок много, тем не менее, мне удалось сделать закладки и сохранить расположение текста и добавленных мною цветных иллюстраций.

Соседние файлы в предмете Информационная технология в печатном деле