Как легко и быстро научиться определять качество книг в формате PDFПримеры будут проводиться в программе - Adobe Acrobat Pro
Скан - отсканированное изображение (сфотографированное изображение) - книга, брошюра, журнал, ...
Скан с OCR - скан с подложенным слоем распознанного текста (с ошибками или без)
OCR (optical character recognition) - оптическое распознавание символов.
ebook - либо изначально цифровое издание, либо сделанное с помощью дополнительных программ.
Самый быстрый способ - открыть файл и кликнуть на страничке:
При
скане, выделится вся страничка
А при
OCR или
ebook - будут выделяться зоны картинок и копироваться текст
Бывают случаи, когда было произведено плохое
OCR и некоторые странички могут определяться как изображение, для полной уверенности, мы открываем наш файл (книгу) - и смотрим
Свойства документа (Ctrl + D) - открываем вкладку
Шрифты - если она пуста - 100% скан, а если имеются шрифты - тогда
OCR или
ebook.
Определить какое
OCR - с ошибками или без, не так уж и тяжело, копируем наш текст в текстовый файл и смотрим на ошибки (если они есть).
И так же полезно бывает узнать и саму информацию о создании книги, для этого в
Свойствах документа открываем вкладку
Описание и
Заказные (в этой вкладке может и не быть информации).
Мы видим что файл был создан в приложении -
Microsoft Word, затем с помощью
doPDF (виртуальный PDF драйвер для принтера) он был преобразован в
PDF и обработан в
PDF-XChange Viewer.
Для отличия качества
OCR от
ebook - достаточно просто увеличить изображение: при скане (или скане с OCR) мы видим неровности (ступенчатость контура) букв.
Не будем забывать что
OCR слой распознанного текста может быть, как под изображением, так и над ним.
При тексте под изображением - мы видим ступенчатость букв.
А при тексте над изображением - буквы приобретают цифровое качество - но место их расположения обозначено многими артефактами которые легко заметить при максимальном увеличении.
При качестве
ebook нет ступенчатости и артефактов около букв: