Классический форум-трекер
canvas not supported
Нас вместе: 4 260 308


Устойчивый к блокировкам VPN с высоким уровнем приватности

Определяем качество книги в формате PDF - скан, OCR, e-book


 
 
RSS
Начать новую тему   Ответить на тему    Торрент-трекер NNM-Club -> О книгах и не только
Автор Сообщение
qzerss ®
Реставратор Клуба
Помощник модераторов Книг
Стаж: 15 лет 3 мес.
Сообщений: 2651
Ratio: 741.219
Поблагодарили: 72198
100%
nnm-club.gif
Как легко и быстро научиться определять качество книг в формате PDF
Примеры будут проводиться в программе - Adobe Acrobat Pro

Скан - отсканированное изображение (сфотографированное изображение) - книга, брошюра, журнал, ...

Скан с OCR - скан с подложенным слоем распознанного текста (с ошибками или без)
OCR (optical character recognition) - оптическое распознавание символов.

ebook - либо изначально цифровое издание, либо сделанное с помощью дополнительных программ.

Самый быстрый способ - открыть файл и кликнуть на страничке:
При скане, выделится вся страничка

А при OCR или ebook - будут выделяться зоны картинок и копироваться текст

Бывают случаи, когда было произведено плохое OCR и некоторые странички могут определяться как изображение, для полной уверенности, мы открываем наш файл (книгу) - и смотрим Свойства документа (Ctrl + D) - открываем вкладку Шрифты - если она пуста - 100% скан, а если имеются шрифты - тогда OCR или ebook.

И так же полезно бывает узнать и саму информацию о создании книги, для этого в Свойствах документа открываем вкладку Описание и Заказные (в этой вкладке может и не быть информации).
Мы видим что файл был создан в приложении - Microsoft Word, затем с помощью doPDF (виртуальный PDF драйвер для принтера) он был преобразован в PDF и обработан в PDF-XChange Viewer.

Для отличия качества OCR от ebook - достаточно просто увеличить изображение: при скане (или скане с OCR) мы видим неровности (ступенчатость контура) букв.
Не будем забывать что OCR слой распознанного текста может быть, как под изображением, так и над ним.
При тексте под изображением - мы видим ступенчатость букв.
А при тексте над изображением - буквы приобретают цифровое качество - но место их расположения обозначено многими артефактами которые легко заметить при максимальном увеличении.

При качестве ebook нет ступенчатости и артефактов около букв:

Программа в которой (через которую), создали этот файл.
И при большом увеличении буквы ровные и красивые (даже если картинка плохого качества)







redsprut
Стаж: 13 лет
Сообщений: 269
Ratio: 69.414
Раздал: 22.68 TB
Поблагодарили: 15260
100%
Откуда: Одесса
ukraine.gif
qzerss
Спасибо огромное!:приветствую:
vinyl_acetate
Стаж: 14 лет
Сообщений: 2442
Ratio: 484.884
Поблагодарили: 593540
100%
О! Классное объяснение. Кое-что я не знал... Спасибо!

_________________
Ночью не сидирую. Но это не точно.
JurKo22
Олигарх+
Стаж: 13 лет 6 мес.
Сообщений: 6095
Ratio: 748.2
Раздал: 27.92 TB
Поблагодарили: 2841
100%
greece.gif
Как быть, если в чужом оформлении выявлены подобные ошибки?
Я недавно делал поиск изначально цифровых энциклопедий, но судя по качеству в ряде случаев был лишь хороший скан… :(
qzerss ®
Реставратор Клуба
Помощник модераторов Книг
Стаж: 15 лет 3 мес.
Сообщений: 2651
Ratio: 741.219
Поблагодарили: 72198
100%
nnm-club.gif
JurKo22 писал(а): Перейти к сообщению
Как быть, если в чужом оформлении выявлены подобные ошибки?

Что значит - подобные ошибки?
Эта тема объясняет как определить качество - в ней ошибки не рассматриваются.
Если хочется лучшего качества - тут 2 варианта
- либо самому научиться и перевести в электронку
- либо попросить кого-то знающего (кто захочет взяться)
Показать сообщения:   
Начать новую тему   Ответить на тему    Торрент-трекер NNM-Club -> О книгах и не только Часовой пояс: GMT + 3
Страница 1 из 1