Классический форум-трекер
canvas not supported
Нас вместе: 4 249 043


Совeтуeм установить VPN чтобы скрыть Ваш IP-адрес

Переплётная Мастерская


Страницы:  1, 2  След. 
 
RSS
Начать новую тему   Ответить на тему    Торрент-трекер NNM-Club -> О книгах и не только
Автор Сообщение
Paralan ®
Стаж: 17 лет 7 мес.
Сообщений: 3276
Ratio: 1086.291
Поблагодарили: 363108
100%
ussr.gif
Предлагается здесь, выкладывать примеры своей обработки книг со скриншотами, дабы желающим научиться было понятно, что какими методами достигнуто.
В принципе, книга обрабатывалась как описано в «Создание электронных книг, на примере Pdf»
Этапы: Office Picture Manager - ScanTailor - Office Picture Manager - Finereader
Вторая обработка в Менеджере рисунков, обусловлена получением tif малых размеров (встречалось 1 раз, которые не берутся для распознания в ФР)
Продолжительность: 4 дня, средней трудности распознавание и обработка
Исходный материал: Pdf, удовлетворительного качества с альбомным расположением страниц, 89,6 Мб
Выход: e-book, интерменю, закладки со смешанным расположением страниц(в основном книжное, только несколько в развернуты в альбомное расположение, для лучшего распознавания, 2,2 Мб
Ссылка на релиз: «Плотник»;
те же страницы

Ещё варианты реставрации и оцифровки:
Paralan ®
Стаж: 17 лет 7 мес.
Сообщений: 3276
Ratio: 1086.291
Поблагодарили: 363108
100%
ussr.gif
1. В ридере попробуйте провести мышкой, зажав левой кнопку мыши по тексту. У обработанной литературы, имеющей текстовой слой, он выделится (проверка на выделение). Но не спешите объявлять такую литературу e-book или OCR, надо провести ещё ряд тестов;
2. Выделенный текст, попробуйте копировать (Ctrl+C, Ctrl+Ins или правой кнопкой мыши через контекст меню). Выделенный текст может не копироваться в буфер, такая книга не может быть признанной не только e-book. но и с OCR, несмотря на внешние признаки таковых. Это бывает, когда некоторые производители электронных книг, ставят защиту от копирования. Обычно помогают 2 программы - Advanced PDF Password Recovery и A-PDF Restrictions Remover. Если снять защиту не удалось (у меня пока таких случаев не было), признаётся Хорошим (Отличным) сканом без OCR. Только повторный рескан и обработка, превратит такую книгу в полноценный e-book или OCR.
3. Если текст скопировался, вставляем в любой текстовой редактор и смотрим на вычитанность текста. Хорошо вычитанный текст, без ошибок или ошибки редакции, видны сразу. Если ошибок много, ставим Хороший скан, OCR с ошибками, или не вычитанный. Если же вставилась "абракодабра" в виде машинных кодов, также считается - хороший скан без OCR. Тоже может помочь только перескан и обработка. Дальнейшие отличия уже OCR и e-book, см. ниже.
Предлагаю РГ, если ставится качество OCR или e-book - подтверждать это скринами на выделение и поиск. Иногда бывает, объявляет релизёр - е-book, скачиваешь раздачу, а там не то что e-book, но и OCR - нет, и такие случаи в последнее время участились. Пишешь ему, откуда взяли такие сведения? В ответ, такие сведения были у модера на таком-то сайте (трекере). Но забываем, что за раздачу на нашем трекере, ответственность несет релизер, и только он должен проверить и знать что он раздает, и какие данные поэтому вносит на раздаваемый материал.
Часто, не только пользователи, но и члены РГ не совсем понимают отличий между хорошим сканом с OCR и электронным форматом книги. Как пример:
Этапы: Office Picture Manager - ScanTailor - Finereader
Продолжительность: до 12 часов на книгу, лёгкой трудности распознавание и обработка
Исходный материал: DjVu, хорошего качества(бледная обложка) с книжным расположением страниц, 6.4 Мб, с OCR и закладками
Выход: e-book, интерменю, закладки с книжным расположением страниц 1,1 Мб
Ссылка на релиз: «Украинские народные блюда»;
те же страницы
Для чёткого понимания различий электронного формата от хорошего скана с OCR:
Максимальное увеличение WinDjVu=400% и этого достаточно чтобы увидеть погрешности шрифтов, и "грязь" сканов. Кроме этого, настройки Файнридера, на данный момент, не позволяют сохранять DjVu в электронном качестве, только текстовой слой под скан. Поэтому, будет только хороший скан с OCR, с отличной(или без неё) "вычиткой", но не более. На рис.1-3 представлены данные отличия, характерные для DjVu:

Pdf (теже страницы в таком же увеличении кроме скрина 3(6400%):
Paralan ®
Стаж: 17 лет 7 мес.
Сообщений: 3276
Ratio: 1086.291
Поблагодарили: 363108
100%
ussr.gif
Работа с графическими редакторами на этапе подготовки скана к распознаванию:
Некоторые сканы, подвергаются дополнительной обработке в графических редакторах, и здесь надо быть осторожным. Например, работа в Photoshope (FastSone Image Viewer, Office Picture Manager) по коррекции сканов не изменяют страниц на выходе в Pdf. В тоже время, отмечено, что программа Retouch Pilot, при сохранении того же разрешения как и остальных страниц (2259*3364) в выходящих страницах Pdf увеличивает размеры страниц. Так, необработанные страницы имеют размеры 19,13*28,48 см, обработанные страницы 58*79 см. Получается, что исходное разрешение надо уменьшать на коэффициент разницы, или обрабатывать все страницы этой программой и пересканировать с уменьшением дпи. Можно пропустить эти области (зелёный и красный прямоугольник на скриншоте 2, но тогда не будут соблюдены книжные разметки оригинала)
Этапы: Office Picture Manager - ScanTailor - Retouch Pilot - FineReader
Обработка в Retouch Pilot, связана с имеющимися метками первичного скана. Обложка обработана в фотошопе, и изменения размеров страницы не отмечалось
Продолжительность: до 24-36 часов на книгу, средней трудности распознавание и обработка, из-за дополнительных методов очистки. В конце отказался из-за длительности обработки.
Исходный материал: Pdf, хорошего качества с альбомным расположением страниц, 26,7 Мб, без OCR
Выход: e-book, интерменю, закладки с книжным расположением страниц - 10,5 Мб
Ссылка на релиз: «Вкусные рулеты. От простого к сложному»;
те же страницы

Некоторые страницы, сохранили «розовую подложку», что связано с настройкой ФР - сохранять цвет шрифта и фона, и исчезает при снятии галки с этого пункта. Если на содержании, скантейлор удалил все упоминания об авторе первичного скана, скрины 2-3 - подвергались обработке, но для уравнивания страниц в pdf-книге возвращены к первичному рескану. "Обломало" ещё повторно переделывать.
Paralan ®
Стаж: 17 лет 7 мес.
Сообщений: 3276
Ratio: 1086.291
Поблагодарили: 363108
100%
ussr.gif
Возвращаясь к вопросу об артефактах в книге:
Если признавать формат fb2 - электронным, то в нем вообще отсутствуют книжные артефакты и разметки книги, такие как верхние и нижние колонтитулы, разметки линиями, и это надо учесть, если книга создаётся из под ФР. Значит разметка этих блоков должна или убираться или редактироваться в последствии. Нечто подобное рискнул выложить и в нижеследующем релизе, хотя сделал оба варианта. Если кому-то надо ”кривоватые линии“ или ”точечные вкрапления“ в книге, обращайтесь в ЛС - вышлю.

Этапы: Office Picture Manager - ScanTailor - FineReader
Продолжительность: от 3 до 5 часов на книгу, лёгкой трудности распознавание и обработка
Исходный материал: Pdf, хорошего качества с альбомным расположением страниц, 3,4 Мб, без OCR
Выход: e-book, интерменю, закладки с книжным расположением страниц - 1,2 (для обоих вариантов) Мб
Ссылка на релиз: «На все руки Мастер 2»;
те же страницы те же страницы с артефактами
Paralan ®
Стаж: 17 лет 7 мес.
Сообщений: 3276
Ratio: 1086.291
Поблагодарили: 363108
100%
ussr.gif
Особое место занимают книги, которые не требуют обязательного применения Скантейлора
Этапы: Office Picture Manager - Image Viewer(выравнивание обложек по размеру страниц книги) - FineReader; Adobe Acrobat(интерменю - правка), BM(правка закладок)
Продолжительность: от 2,5 до 3 часов на книгу, лёгкой трудности распознавание и обработка
Исходный материал: Pdf, хорошего качества, ~14,2 Мб, без OCR
Выход: e-book, интерменю, закладки с книжным расположением страниц, размеры разные.
Ссылки на релизы: «Современные отделочные материалы»; «Современные работы по закладке фундамента»; «Водоснабжение загородного дома»; «Монтаж и эксплуатация электропроводки» - Скриншоты не предоставляю, можно посмотреть в релизе как то что получилось и по ссылке - что было.
Неожиданные трудности встретились - «Бабушкины пироги». Этапы, исходный материал, и выход - такие же что и предыдущие. Исключение составила обработка. Всего 33 страницы обрабатывались 22 часа, несмотря на визуальный неплохой скан книги. Фактически, редакция каждого - слова. Не завидую, уважаемому WASO, ведёт обновляемые подшивки - «Мир растений», «Мир животным», где текст располагается на фоновом рисунке. Думаю, со временем он поделится своими секретами обработки. Встречаются единичные артефакты неполного соответствия шрифта текста, с имеющимся в скане.
те же страницы
или всем всё ясно, или ничего не ясно... :D
fisher3
Стаж: 15 лет 4 мес.
Сообщений: 3487
Ratio: 4.466
Поблагодарили: 201592
100%
russia.gif
I. Читал отличия. Немного не уложилось, хотел уточнить:
- если текст выделяется и копируется правильно = OCR без ошибок (неправильно - с ошибками);
- если текст выделяется не построчно, а всей массой = ? скан с OCR?
- если текст не выделяется = скан без OCR?
- а что есть ebook или "изначально компьютерное/электронное"?
Может, упростить классификацию? с OCR/без OCR.

II. По поводу сканирования книг.
Я как-то делал скан с руководства пользователя 1С. Времени было мало, страниц много (~750, половина А4). Я прогнал через сканер, порубил пополам FR и свернул все сразу в pdf (без распознавания). Скажите, на кой ляд мне ее распознавать? Ведь напечатать я ее смогу и так?
(просто читал-смотрел результаты ваших экспериментов, и как-то задумался). И зачем вообще распознавать? Если только качество улучшить? Так порой повеситься можно, особенно, если книги двуязычные.
Paralan ®
Стаж: 17 лет 7 мес.
Сообщений: 3276
Ratio: 1086.291
Поблагодарили: 363108
100%
ussr.gif
fisher3 - I - для чего нужны е-book частично писалось - Создание электронных книг, на примере Pdf 1. Некоторые, читают книги на гаджетах - А.А. Гончаров | Домашнее консервирование - Овощи в банке [2012] [PDF], что возможно для e-book. Могу добавить, не со всякого скана вы распечатаете даже приличную книгу, или краски будет израсходовано - "немерено" 2. Я уже не говорю, что фактически мы в скане качаем воздух в 3-10 раз превышающий объем информации 3. Книга не мультимедия - Фукай Акико, Суо Тамами | История моды с XVIII по XX век [2003] [PDF] В представленном файловом объеме, не всякий комп потянет открытие и чтение и ценится минимумом размера, при большом количестве информации. Кроме того, явные противоречия. 4. Выражение - изначально компьютерное, не совсем верное. Подразумевалось что e-book(хоть в конвертации или распознаванием), но ведь сканы (файлы рисунков - тоже являются компьютерными электронными файлами. Поэтому и рекомендуется указывать - e-book, OCR без ошибок(вычитанный и выделенный в текстовой слой), OCR с ошибками (не вычитанная книга или обработанная в автоматическом режиме в FineReader), Скан без OCR (как у нас любят писать - хороший скан, хотя в некоторых случаях это не соответствует действительности), удовлетворительный, ну а плохой скан никто все равно не напишет ;)
II - Никого не заставляю, все на сугубо добровольной основе. Просто у вас неудачный опыт работы по производству е-book(большой объем сразу), да и русско-английские издания наверное может обрабатывать переводчик, лично я не возьмусь :да:
fisher3
Стаж: 15 лет 4 мес.
Сообщений: 3487
Ratio: 4.466
Поблагодарили: 201592
100%
russia.gif
Paralan
Опять вы все запутали. Я пытаюсь упростить классификацию для всех, не только для опытных. Вот предложения из моего последнего вам ЛС:

Посмотрел здесь:
http://otvety.google.ru/otvety/thread?tid=1ccdc25d0b61357c
http://en.wikipedia.org/wiki/E-book#Formats
С форматами (их разнообразием) вообще обалдеть можно.
===============
Тогда так:
- текст не выделяется - скан
- текст выделяется массивом - скан с ОСР
- текст выделяется построчно - ОСР с ошибками/без.
Да и не париться больше. (Фраза про e-book напрягает, она обо все и ни о чем.)
==================
Если книга в txt, rtf, doc и спецформатах, типа epub, fb2, как это определяется?
-----
Двуязычные книги - имелась ввиду техническая русско-англ. литература, где 90% - на русском, встречаются англ. термины. Там приходится вычитывать вручную. Что касается того скана, о котором я упомянул. Я сделал его за 2-е суток (~ за 12-15 часов), напрягался только сканер. :)
--------
Чтобы подтвердить истинность скана с ОСР, вы предлагаете делать скриншот. Используется любой screenshot maker? Я правильно понимаю?
--------
Paralan ®
Стаж: 17 лет 7 мес.
Сообщений: 3276
Ratio: 1086.291
Поблагодарили: 363108
100%
ussr.gif
fisher3 писал(а): Перейти к сообщению
Paralan
1. .... (Фраза про e-book напрягает, она обо все и ни о чем.)
==================
2. Если книга в txt, rtf, doc и спецформатах, типа epub, fb2, как это определяется?
-----
Двуязычные книги - имелась ввиду техническая русско-англ. литература, где 90% - на русском, встречаются англ. термины. Там приходится вычитывать вручную. Что касается того скана, о котором я упомянул. Я сделал его за 2-е суток (~ за 12-15 часов), напрягался только сканер. :)
--------
3. Чтобы подтвердить истинность скана с ОСР, вы предлагаете делать скриншот. Используется любой screenshot maker? Я правильно понимаю?
--------

1. :( Куда ещё проще. Мы же РГ Книги, а не музыки или видео. Как может фраза e-book - напрягать? Другое дело, что её используют кому не лень - В.И.Ваганов ;А.А.Пинт | Езжу без аварий [1991] [PDF] и когда просишь представить скриншоты исчезает и само качество... Может его отменить? Вот хороший скан - А.В. Савельевских (сост.) | Кофе [2007] [JPEG] - удалил сразу как только скачал. Этот "мусор" не нужен ни для каких целей. И почему мы должны равняться на несведущих? Есть у вас информация, котороя расширяет восприятие релиза - об авторе, качестве релиза, дополнительная информация, пожалуйста давайте.
2. Также как и в Pdf выделением и поиском по слову. Кстати не каждый doc = e-book, встречал мастеров, которые сканы в него загоняли.
3. Различий в скриншотах нет, если вы только не извлекаете страницу из книги, как описано - Делаем скриншоты (литература и мультимедийные материалы) (Меновит). Там выделение слова под копирование и поиск по слову - невозможен :приветствую:
fisher3
Стаж: 15 лет 4 мес.
Сообщений: 3487
Ratio: 4.466
Поблагодарили: 201592
100%
russia.gif
Paralan
Скажите пожалуйста, как вы подсчитываете примерный вес (Мб) книги исходя из разрешения страниц. Мне для общего развития. Просто недавно собирал журналы из jpg. Скажем 60 шт. весит 30 метров. Если собрать (PDF-XChange Viewer) на формат А4 (210х297), будет весить до 100 метров (даже с интерполяцией картинок, если без, то вообще запредельно). Если собирать на размер картинки, то будет около 50-60, что тоже многовато, или я заблуждаюсь?
Paralan ®
Стаж: 17 лет 7 мес.
Сообщений: 3276
Ratio: 1086.291
Поблагодарили: 363108
100%
ussr.gif
fisher3 - я не математик, и определённой формулы у меня нет. Больше практик, и на основе практического опыта замечено что цветные тифы 1,6 - 2 Гб, собираются лучше всего FineReader в зависимости от разрешения исходных сканов, примерно 10 (максимум был 32 метра), за ним PDF-xChange tools и больше всего набирает размер - при сборке Adobe Acrobat (из того, чем работаю постоянно). А пример привел, по-скольку есть книга и сканы уже "разложенные". DjVu больше ужимает графический материал, Pdf - меньше. Также зависит размер и от предварительной обработки сканов. Office Picture Manager - увеличивает размер сканов, JPEG Compressed 2010 - уменьшает. Более подробно - Создание электронных книг, на примере Pdf
ukatana
Стаж: 15 лет 1 мес.
Сообщений: 794
Ratio: 4.496
Поблагодарили: 70537
100%
russia.gif
fisher3 писал(а): Перейти к сообщению
Paralan
Скажите пожалуйста, как вы подсчитываете примерный вес (Мб) книги исходя из разрешения страниц. Мне для общего развития. Просто недавно собирал журналы из jpg. Скажем 60 шт. весит 30 метров. Если собрать (PDF-XChange Viewer) на формат А4 (210х297), будет весить до 100 метров (даже с интерполяцией картинок, если без, то вообще запредельно). Если собирать на размер картинки, то будет около 50-60, что тоже многовато, или я заблуждаюсь?

Не советую подгоняться под размер, главное все же должно быть качество, не стоит идти в ущерб ему для достижения минимального размера. Если не получается максимально уменьшить размер, то пусть будет некая золотая середина.

В список увеличивающих вес будущего пдф можете еще включить фотошоп. Им часто приходится пользоваться, если сканируешь старую грязную книгу. И если есть необходимость в пост-обработке фотошопом, перегоняйте в тифф, он при переработке практически не увеличивает размер выходного пдфа.

Уменьшать вес и размеры сканов еще можно программой Light Image Resizer 4. Цветные журналы я, например, уменьшаю (когда не лень) до 2100 пикселей по ширине страницы (при разрешении в 300), можно попробовать и еще меньше выставлять значения. На выход ставлю конечно же тиф.

И самое главное, не знаю как файнридер, у меня его ни один компьютер не хочет "везти", но акробат лучше сжимает тифы, чпеги вообще не жмет, а если программно сжимать в акробате, получается ужасное качество. Все остальные "собиралки" не рассматриваю принципиально, в свое время перепробовала несколько, и полноценными могу считать только файнридер и акробат, думаю Paralan здесь со мной согласится.

_________________
Мои релизы...
Paralan ®
Стаж: 17 лет 7 мес.
Сообщений: 3276
Ratio: 1086.291
Поблагодарили: 363108
100%
ussr.gif
Полностью согласен с ukatana, причем хочется уточнить - PDF-xChange Tools - pdf-редактор, набрать в нем сканы в книгу не получится(максимум вставить пустые страницы или соединить уже существующие pdf), но он хорошо оптимизирует код документа. Так после правки в pdf&djvubookmarks исправления в этом редакторе(тех же закладок) приводит к уменьшению размера файла по сравнению с Acrobat Pro
twingo
Сталкер
Стаж: 14 лет 7 мес.
Сообщений: 14863
Ratio: 83.054
Поблагодарили: 2119425
100%
Paralan,

Про PDF-xChange Tools не совсем точно, у него есть функция создания pdf-ok из изображений.
Неоднократно пользовался, делая журналы в pdf из скачанных архивов страниц в jpg.
Paralan ®
Стаж: 17 лет 7 мес.
Сообщений: 3276
Ratio: 1086.291
Поблагодарили: 363108
100%
ussr.gif
twingo - Прав, оговорился имел ввиду - PDF-xChange Viewer :смущение:
Показать сообщения:   
Начать новую тему   Ответить на тему    Торрент-трекер NNM-Club -> О книгах и не только Часовой пояс: GMT + 3
Страницы:  1, 2  След.
Страница 1 из 2