Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Болгарчук Р. - Книга 3.0 Слушайте! 2017.pdf
Скачиваний:
65
Добавлен:
01.12.2019
Размер:
14.79 Mб
Скачать

Ст. 87 из 343 в разделе 55

ссылки11 опубликовал12

П.с.

Вот еще не плохая статейка по теме: «Зачем нужны программы распознавания текста?»

Некоторые комментарии к вышеприведённой статье.

Олег Антонов Аксакал 28 марта 2014 в 18:31 #Ответить0+1

- «Рома Болгарчук, если судить по электронным библиотекам, то стандартом дефакто стал fb2»

Мой ответ:

«Да. Спасибо за дополнение, про него в статье не упоминал, как и к примеру odt (OpenDocumentText) xhtml, html chm и др... Это все довольно перспективные форматы. Но честно говоря тема подобных форматов и опенсорс в целом, выходит далеко за рамки данной статьи. Просто мне надо было, наверно, в статье оговориться, что речь пойдет о форматах более популярных в среде Windows. Хотя, опять же, конечно, все больше появляется программ, работающих с разными форматами вне зависимости от системы. Тем не менее, мне почему-то с ним приходилось сталкиваться реже. Но они так же довольно популярны особенно при работе с художественной и некоторой научно-популярной литературой. Так что конечно мое мнение возможно и субъективно. Может ситуация характерна только для меня и связана с рядом факторов. 1 - использование системы Windows. 2 – получение файлов не через электронные библиотеки, а через соц. сети, торренты, файлообменники. 3- специфика самой литературы (научная и малоизвестная). Может из-за данных факторов так сложилось что около 90 % книг, которые мне встречались (а проработал я не мало) были именно в формате djvu, pdf или в лучшем случае doc, а иногда, к сожалению, и тхт. Тем не менее, изредка встречался и fb2. Но из-за того, что он редко встречается. Практический не знаю, как с ним работать. Хотя мне хватает просто перегнать его в тхт. И все же и данный формат достоин внимания т.к. он довольно шустро развивается на разных платформах и совершенно различных устройствах. Но я бы не стал переоценивать данный формат. По крайней мере, пока. Т.к. опенсорс мне кажется все еще сыроват, и пусть меня закидают тухлыми яйцами линуксоиды, но все же… Хотя это опять же отдельная тема.»

11http://www.proza.ru/2013/03/12/1537 Электронные или бумажные книги лучше? http://shkolazhizni.ru/blog/650224/ Электронные или бумажные книги лучше? (комментарии) http://ru.wikipedia.org/wiki/%D0%9E%D1%86%D0%B8%D1%84%D1%80%D0%BE%D0%B2%D0%BA%D0

%B0_%D0%BA%D0%BD%D0%B8%D0%B3 Оцифровка книг http://ru.wikipedia.org/wiki/%D0%90 – таблица кодировок буквы «А»

http://school.xvatit.com/index.php?title=%D0%A0%D0%B0%D1%81%D1%82%D1%80%D0%BE%D0%B2%D 0%B0%D1%8F_%D0%B8_%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D0%B0%D1%8F _%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D0%BA%D0%B0 – растровая и векторная графика

http://nnm-club.me/forum/viewtopic.php?t=636807 Атлас ареалов и ресурсов лекарственных растений СССР

http://ru.wikipedia.org/wiki/%D0%9E%D1%86%D0%B8%D1%84%D1%80%D0%BE%D0%B2%D0%BA%D0 %B0_%D0%BA%D0%BD%D0%B8%D0%B3 - Оцифровка книг

http://ru.wikibooks.org/wiki/%D0%9E%D1%86%D0%B8%D1%84%D1%80%D0%BE%D0%B2%D0%BA%D0 %B0_%D0%BF%D0%B5%D1%87%D0%B0%D1%82%D0%BD%D1%8B%D1%85_%D1%82%D0%B5%D0%BA %D1%81%D1%82%D0%BE%D0%B2Оцифровка печатных текстов

http://diplomguide.ru/skanirovanie.html Как отсканировать документ и распознать его в MSWord http://shkolazhizni.ru/archive/0/n-54561/ Как быстро отсканировать книгу в формат PDF (используя

ClearScan)

12 © Copyright: Роман Болгарчук, 2013

Свидетельство о публикации №213123000034 http://www.proza.ru/2013/12/30/34 (заблокирована по полит причинам)

http://shkolazhizni.ru/archive/0/n-64860/ https://sites.google.com/site/bolgarchukr/home/moi-stati/obrazovanie/it-i-inovacii/elektronnye-knigi/zacem-i-kak-

raspoznavat-knigi

03.12.2017

Книга 3.0 Слушайте!

Болгарчук Р.

Ст. 88 из 343 в разделе 55

Другой комментарий:

«Если изображение черно-белое – то расположенных в определенной очередности черных и белых точек, которые и будут «рисунком» буквы. Причем на каждую нарисованную точку потребуются те же 8 сигналов."? Это, мягко говоря, совершенно неверно.»

Ответ:

«Спасибо за поправку. В принципе да. По большому счету можно закодировать одну точку как сигнал. Т.е. к примеру, есть сигнал – белый, нет – черный. Вот этот черный и будет точка. Меня сбило с толку то, что на мониторе я могу поставить минимальную цветопередачу 16 цветов - 8 бит. Поэтому одна точка будет кодироваться 8 битами, а не одним. Тем не менее, если анализировать именно хранение информации, то совершенно верно. Можно и 1 битом закодировать одну черно-белую точку. Но все равно, с помощью 8 точек нарисовать полноценную букву и главное пространство вокруг неё довольно проблематично. Поэтому ошибка в данном случае мне кажется, не существенна.

П. с. К тому же, конечно можно сохранить в ч. б. но это минимум. При сканировании и сохранении именно фотографий книги я рекомендую использовать «оттенки серого», как это ни странно, но именно черно-белый рисунок текста распознать немного сложнее. Точнее будет больше ошибок в тексте. Но опять же это зависит от многих нюансов (разрешения фото, шрифта доп. графич. элементов на странице). А при сохранении текста в градации серого уже придётся задействовать полутона т.е. не только 0 и 1 – черный и белый, но и к примеру, светлосерый, темно-серый поэтому здесь уже наверно будут использоваться как минимум те же 8 бит. Наверно надо было упомянуть это в статье, а то действительно некоторые в погоне за размером сканируют и сохраняют изображение в ч.б. вместо серого. Но в принципе это уже нюансы сканирования.».

03.12.2017

Книга 3.0 Слушайте!

Болгарчук Р.

Соседние файлы в предмете Информационная технология в печатном деле