Классический форум-трекер
canvas not supported
Нас вместе: 4 232 209

Определяем качество книги в формате PDF - скан, OCR, e-book


 
 
RSS
Начать новую тему   Ответить на тему    Торрент-трекер NNM-Club -> О книгах и не только
Автор Сообщение
qzerss ®
Реставратор Клуба
Помощник модераторов Книг
Стаж: 13 лет 5 мес.
Сообщений: 2058
Ratio: 678.334
Поблагодарили: 64997
100%
nnm-club.gif
Как легко и быстро научиться определять качество книг в формате PDF
Примеры будут проводиться в программе - Adobe Acrobat Pro

Скан - отсканированное изображение (сфотографированное изображение) - книга, брошюра, журнал, ...

Скан с OCR - скан с подложенным слоем распознанного текста (с ошибками или без)
OCR (optical character recognition) - оптическое распознавание символов.

ebook - либо изначально цифровое издание, либо сделанное с помощью дополнительных программ.

Самый быстрый способ - открыть файл и кликнуть на страничке:
При скане, выделится вся страничка

А при OCR или ebook - будут выделяться зоны картинок и копироваться текст

Бывают случаи, когда было произведено плохое OCR и некоторые странички могут определяться как изображение, для полной уверенности, мы открываем наш файл (книгу) - и смотрим Свойства документа (Ctrl + D) - открываем вкладку Шрифты - если она пуста - 100% скан, а если имеются шрифты - тогда OCR или ebook.

Определить какое OCR - с ошибками или без, не так уж и тяжело, копируем наш текст в текстовый файл и смотрим на ошибки (если они есть).
И так же полезно бывает узнать и саму информацию о создании книги, для этого в Свойствах документа открываем вкладку Описание и Заказные (в этой вкладке может и не быть информации).
Мы видим что файл был создан в приложении - Microsoft Word, затем с помощью doPDF (виртуальный PDF драйвер для принтера) он был преобразован в PDF и обработан в PDF-XChange Viewer.

Для отличия качества OCR от ebook - достаточно просто увеличить изображение: при скане (или скане с OCR) мы видим неровности (ступенчатость контура) букв.
Не будем забывать что OCR слой распознанного текста может быть, как под изображением, так и над ним.
При тексте под изображением - мы видим ступенчатость букв.
А при тексте над изображением - буквы приобретают цифровое качество - но место их расположения обозначено многими артефактами которые легко заметить при максимальном увеличении.

При качестве ebook нет ступенчатости и артефактов около букв:
redsprut
Стаж: 11 лет 2 мес.
Сообщений: 268
Ratio: 69.615
Раздал: 22.43 TB
Поблагодарили: 14932
100%
Откуда: Одесса
ukraine.gif
qzerss
Спасибо огромное!:приветствую:
vinyl_acetate
Стаж: 12 лет 2 мес.
Сообщений: 2442
Ratio: 484.884
Поблагодарили: 588148
100%
О! Классное объяснение. Кое-что я не знал... Спасибо!

_________________
Ночью не сидирую. Но это не точно.
JurKo22
Олигарх+
Стаж: 11 лет 9 мес.
Сообщений: 5870
Ratio: 744.406
Раздал: 27.81 TB
Поблагодарили: 2783
100%
greece.gif
Как быть, если в чужом оформлении выявлены подобные ошибки?
Я недавно делал поиск изначально цифровых энциклопедий, но судя по качеству в ряде случаев был лишь хороший скан… :(
qzerss ®
Реставратор Клуба
Помощник модераторов Книг
Стаж: 13 лет 5 мес.
Сообщений: 2058
Ratio: 678.334
Поблагодарили: 64997
100%
nnm-club.gif
JurKo22 писал(а): Перейти к сообщению
Как быть, если в чужом оформлении выявлены подобные ошибки?

Что значит - подобные ошибки?
Эта тема объясняет как определить качество - в ней ошибки не рассматриваются.
Если хочется лучшего качества - тут 2 варианта
- либо самому научиться и перевести в электронку
- либо попросить кого-то знающего (кто захочет взяться)
Показать сообщения:   
Начать новую тему   Ответить на тему    Торрент-трекер NNM-Club -> О книгах и не только Часовой пояс: GMT + 3
Страница 1 из 1