понедельник, 28 декабря 2009 г.

Конвертировать pdf в jpg

Конвертировать мне понадобилось для оцифровки книги с помощью CuneiForm. Пакет pdf2jpg для Linux я не нашел, зато нашел другие средства, а точнее переходной формат ppm, через который можно конвертировать pdf почти во что угодно. Для конвертирования pdf в ppm есть утилита pdftoppm, которая есть в составе пакета xpdf-reader и который, соответственно, нужно установить:

sudo apt-get install xpdf-reader

Для конвертации выполняем

pdftoppm file.pdf file

получаем кучу ppm файлов по числу страниц в исходном pdf-файле. Расширение ppm к file добавлять не нужно, оно будет добавлено автоматически.

Теперь преобразовываем ppm в jpg с помощью утилиты ppmtojpeg из пакета netpbm и сразу удаляем промежуточные файлы:

for file in *.ppm; do ppmtojpeg $file > ${file/.ppm/.jpg}; rm $file; done

P.S.
Также можно преобразовать в bmp чтобы можно было использовать консольный вариант Cuneiform:

for file in *.ppm; do ppmtobmp $file > ${file/.ppm/.bmp}; rm $file; done

ну и наконец выполнить пакетную оцифровку полученных изображений:


for file in *.bmp; do cuneiform -l rus $file -o ${file/.bmp/.txt}; done

1 комментарий:

Популярные сообщения