Создать тему  Создать ответ 
djvu: как правильно готовить?
29-12-2012, 14:26    
Сообщение: #11
Oleg

Moderator
Сообщений: 590
Зарегистрирован: 17.06.12

RE: djvu: как правильно готовить?
(29-12-2012 14:23)Bʰudʰ писал(а):  e-doc
В смысле чисто текстовый, векторный pdf? Тогда все логично. Он же делает из текста картинки. Картинки весят больше, чем текст.

Широкая электрификація южныхъ губерній дастъ мощный толчокъ подъёму сельскаго хозяйства.
Вебсайт Найти все сообщения
Цитировать это сообщение
29-12-2012, 14:29    
Сообщение: #12
Gaeilgeóir

Moderator
Сообщений: 1497
Зарегистрирован: 25.10.12

RE: djvu: как правильно готовить?
(29-12-2012 12:39)Python писал(а):  Каждая картинка весит примерно полтора МБ.
Я бы начал с вот этого. Прогнать все картинки батчем через Ирфанвью и дожать до нормального размера. 1,5 М - это похоже на бмп, а не йпг. А потом только djvusmall - и быстро, и эффектно
Найти все сообщения
Цитировать это сообщение
29-12-2012, 14:33    
Сообщение: #13
Bʰudʰ

Member
Сообщений: 188
Зарегистрирован: 23.10.12

RE: djvu: как правильно готовить?
(29-12-2012 14:26)Oleg писал(а):  В смысле чисто текстовый, векторный pdf?
Почти. Парочка диаграммок присутствует.

Исполнитель роли Терминатора по решению суда сменил фамилию на Афроамериканоафроамериканец.
В противном случае артисту грозил штраф в $1.723 млрд.
Найти все сообщения
Цитировать это сообщение
29-12-2012, 15:27    
Сообщение: #14
Ickander

Moderator
Сообщений: 425
Зарегистрирован: 18.08.12

RE: djvu: как правильно готовить?
ебук из фотаг на мабилку навису нужен только при условии тотальной невозможности расплести и отсканить (или хотя бы просто отсканить) книжечку.
Найти все сообщения
Цитировать это сообщение
29-12-2012, 15:30    
Сообщение: #15
Ickander

Moderator
Сообщений: 425
Зарегистрирован: 18.08.12

RE: djvu: как правильно готовить?
диаграммы не надо жать из картинок, натыренных из пдф. Расплетаете пдф, берёте картинку, переделываете как надо и фигарите в джву в нужном виде прям из вектора.
Найти все сообщения
Цитировать это сообщение
29-12-2012, 15:38    
Сообщение: #16
Gaeilgeóir

Moderator
Сообщений: 1497
Зарегистрирован: 25.10.12

RE: djvu: как правильно готовить?
И ещё замечание (из собственного горького опыта!): никогда не используйте jpg-формат для хранения страниц! Алгоритм сжатия jpg производит "размытые меандры" по краям чёрных линий (букв в том числе), которые тоже занимают место, а только ухудшают качество картинки. Страницы рекоммендую хранить без потери качества в формате tiff со сжатием LZW для цветных или серошкальных (страница 500-600k цветная, 200k серошкальная) или со сжатием Huffman RLE, но это подходить только для высококонтрастных чёрно-белых страниц, зато размер падает до 20-30k
Найти все сообщения
Цитировать это сообщение
29-12-2012, 15:44    
Сообщение: #17
Python

Senior Member
Сообщений: 462
Зарегистрирован: 11.07.12

RE: djvu: как правильно готовить?
(29-12-2012 14:05)Bʰudʰ писал(а):  Прогнал через pdf2djvu pdf размером 292 КБ. На выходе djvu весом 311 КБ. Что-то тут не так…
Тоже заметил, что ничего не сжимает, если не задавать никаких параметров. Прикол в том, что в версии для windows половина опций не работает из-за неспособности pdf2djvu вызвать csepdjvu (возможно, просто нужно заменить прямой слэш на обратный где-то в исходниках и перекомпилировать).

LF agent
Вебсайт Найти все сообщения
Цитировать это сообщение
29-12-2012, 15:58    
Сообщение: #18
Ickander

Moderator
Сообщений: 425
Зарегистрирован: 18.08.12

RE: djvu: как правильно готовить?
На дхду есть раздел, посвя/ещенный сексу с книгами и сканером. Там предлагают кучу стратегий форматов и преобразований.
Найти все сообщения
Цитировать это сообщение
29-12-2012, 17:21    
Сообщение: #19
Oleg

Moderator
Сообщений: 590
Зарегистрирован: 17.06.12

Приготовление DjVu. Для блондинок с картинками
1. Обработка скано в ScanTailor.

Берем последнюю версию ST+ или ST Enhanced Открываем, нажимаем "Новый проект"
   
В открывшемся окне указываем папку, где лежат сканы
   
Обратите внимание на галочку "Исправить dpi, даже если он кажется правильным". Эта галочка может понадобиться, если скан "нестандартный", допустим с фотоаппарата. Можно предварительно поиграться с одним двумя файлами, чтобы подобрать исходное разрешение при котором получается наилучший результат.
   
В моем случае пришлось вручную выставить 150 dpi для всех файлов.
   
Далее собственно процесс обработки, который состоит из 6 этапов. На первом нам предлагают повернуть изображения, если они отсканированы неправильно. Если ориентация картинок правильная, то этот шаг можно пропустить.
   
На втором шаге нужно указать разбивку на страницы. Это нужно обычно когда вы сканируете книгу разворотом.
   
К меня нет страниц, требующих разрезки, поэтому я попросил программу ничего не резать и применил эту опцию ко всем страницам.
   
Следующий шаг - исправление наклона страницы. Тут все чаще всего исправляется корректно. Но иногда потребуется повернуть страницу-другую вручную.
   
Далее программа выбирает полезную область (т.е. содержащую текст и картинки). На этом шаге нужно произвести обработку всех страниц (серой кругленькой стрелочкой). Это займет несколько минут. Иногда программа определяет полезную область некорректно: обрезает номера страниц (как у меня на скриншоте) или наоборот принимает мусор за рисунок. Такие страницы надо поправить вручную. Для удобства поиска "кривых" страниц можно менять способ сортировки (в правом нижнем углу): доступны опции "натуральный", "по ширине" и "по высоте".
   
Пятый шаг - задание полей. Тут все просто: выбираем наиболее "типичную страницу", задаем ей поля, применяем ко всем страницам. Затем используя сортировку страниц, поправляем поля для самых широких и высоких страниц; выравниваем по краям. Если убрать галочку Match size with other pages, то страница будет исключена из общего "макета", что полезно для обложек и всяких неформатных вкладок.
   
На последней стадии происходит собственно обработка. С помощью бегунка в секции "Режим" можно контролировать уровень бинаризации. Поставьте наиболее подходящий для вашего скана и примените ко всем страницам. По умолчанию вывод происходит в формат ч\б
   
Для страниц с иллюстрациями нужно выбрать режим "смешанный". Если все иллюстрации прямоугольные, то нужно поставить соответствующую галочку.
   
Затем запускаем процесс обработки всех страниц и идем пить кофе \ курить \ заниматься своими делами. В зависимости от количества страниц, иллюстраций и тяжести сканов, процесс вывода может занимать до часа и более.

2. Создание djvu

Тут все просто до безобразия. Запускаем DjVuSmall, выбираем обработанные нами файлы (находятся по адресу папка_с_исходным_сканом/out) и профиль кодирования (в 99% случаев хватит Scanned 600 dpi).
   
Пара минут и djvu'шка готова:
   

3. Распознавание текста.

Нам понадобится FineReader версии 8 (другие лучше не использовать во избежание проблем) и прогаммка DjVuOCR

Открываем обработанные сканы в Файнридере, выбираем подходящий язык распознавания и жмем "Распознать все"
   
Важно! После завершения распознавания обязательно надо перейти с последней страницы куда-нибудь на другую. Иначе DjVuOCR выдаст ошибку.

Запускаем DjVuOCR, выбираем работу в ручном режиме
   
Затем указываем место расположения проекта распознавания FR. Если вы его не сохраняли, то по умолчанию он будет храниться в Untitled0 во временной папке вашего пользователя (в разных версиях ОС пути будут разные). Также надо указать место расположения временного файла, где будет храниться текст (можно задать любое) и файл, который вы будете обрабатывать.
   
Через пару минут в файле окажется слой распознанного текста.
 
Все :)

Широкая электрификація южныхъ губерній дастъ мощный толчокъ подъёму сельскаго хозяйства.
Вебсайт Найти все сообщения
Цитировать это сообщение
29-12-2012, 18:08    
Сообщение: #20
Bʰudʰ

Member
Сообщений: 188
Зарегистрирован: 23.10.12

RE: djvu: как правильно готовить?
Блин, а ABBYY PDF Transformer проекты распознавания не сохраняет :(.

Исполнитель роли Терминатора по решению суда сменил фамилию на Афроамериканоафроамериканец.
В противном случае артисту грозил штраф в $1.723 млрд.
Найти все сообщения
Цитировать это сообщение
Создать ответ 


Переход:


Пользователи просматривают эту тему: 1 Гость(ей)