Определяем качество книги в формате PDF - скан, OCR, e-book

Как легко и быстро научиться определять качество книг в формате PDF
Примеры будут проводиться в программе - Adobe Acrobat Pro

Скан - отсканированное изображение (сфотографированное изображение) - книга, брошюра, журнал, ...

Скан с OCR - скан с подложенным слоем распознанного текста (с ошибками или без)
OCR (optical character recognition) - оптическое распознавание символов.

ebook - либо изначально цифровое издание, либо сделанное с помощью дополнительных программ.

Самый быстрый способ - открыть файл и кликнуть на страничке:
При скане, выделится вся страничка

А при OCR или ebook - будут выделяться зоны картинок и копироваться текст

Бывают случаи, когда было произведено плохое OCR и некоторые странички могут определяться как изображение, для полной уверенности, мы открываем наш файл (книгу) - и смотрим Свойства документа (Ctrl + D) - открываем вкладку Шрифты - если она пуста - 100% скан, а если имеются шрифты - тогда OCR или ebook.

И так же полезно бывает узнать и саму информацию о создании книги, для этого в Свойствах документа открываем вкладку Описание и Заказные (в этой вкладке может и не быть информации).
Мы видим что файл был создан в приложении - Microsoft Word, затем с помощью doPDF (виртуальный PDF драйвер для принтера) он был преобразован в PDF и обработан в PDF-XChange Viewer.

Для отличия качества OCR от ebook - достаточно просто увеличить изображение: при скане (или скане с OCR) мы видим неровности (ступенчатость контура) букв.
Не будем забывать что OCR слой распознанного текста может быть, как под изображением, так и над ним.
При тексте под изображением - мы видим ступенчатость букв.
А при тексте над изображением - буквы приобретают цифровое качество - но место их расположения обозначено многими артефактами которые легко заметить при максимальном увеличении.

При качестве ebook нет ступенчатости и артефактов около букв:

Программа в которой (через которую), создали этот файл.
И при большом увеличении буквы ровные и красивые (даже если картинка плохого качества)

qzerss
Спасибо огромное! :приветствую:

О! Классное объяснение. Кое-что я не знал... Спасибо!

Как быть, если в чужом оформлении выявлены подобные ошибки?
Я недавно делал поиск изначально цифровых энциклопедий, но судя по качеству в ряде случаев был лишь хороший скан…

JurKo22 писал(а):

Как быть, если в чужом оформлении выявлены подобные ошибки?

Что значит - подобные ошибки?
Эта тема объясняет как определить качество - в ней ошибки не рассматриваются.
Если хочется лучшего качества - тут 2 варианта
- либо самому научиться и перевести в электронку
- либо попросить кого-то знающего (кто захочет взяться)

Супер! Просто, понятно, все разложено по полочкам. И под спойлером полноразмерные скрины. Спасибо! :ура: