poppler - утилита конвертации PDF
#poppler #pdf #jpg
Для конвертации PDF в различные форматы можно воспользоваться poppler-utils.
Poppler — это библиотека рендеринга PDF, основанная на кодовой базе XPDF-3.0. Она используется для обработки PDF-файлов и позволяет разработчикам создавать программы для чтения и редактирования PDF-документов.
Poppler поддерживает множество операционных систем, включая Linux, macOS и Windows.
В пакете содержатся основанные на Poppler инструменты командной строки для получения информации о PDF-документах, их преобразованиях в другие форматы и редактированиях.
Конвертировать изображение в pdf.JPG в PDF в Linux с помощью ImageMagick
- $ convert *.jpg file.pdf
В poppler-utils есть несколько программ, с помощью которых можно преобразовать PDF-документ в различные форматы:
- pdftocairo — преобразование из PDF в PNG, JPEG, PDF, PS, EPS и SVG на основе Cairo;
Convert PDF to JPEG:
pdftocairo -jpeg
-
pdftohtml — преобразование из PDF в HTML;
-
pdftoppm — преобразование из PDF в изображения PPM, PNG и JPEG;
-
pdftops — преобразование из PDF в PostScript (PS);
Convert pdf to svg:
- $ pdftocairo -svg -f 1 -l 19 test.pdf test.svg
где:
- f - начальная страница
- l - последняя страница
- test.pdf - что конвертируем
- test.svg - во что конвертируем
Если вам нужно преобразовать PDF-документ в какой-либо другой формат, можно воспользоваться одной из доступных утилит.
Например, преобразование PDF в PS осуществляется командой:
- pdftocairo -ps example.pdf example.ps
Извлечение изображений из файла PDF
Процедура извлечения очень проста. Просто следуйте следующему синтаксису.
- pdfimages -all input.pdf images/prefix
Приведенная выше команда берет все изображения из входного файла input.pdf и извлекает их в тот же каталог, что и запрос. Конечно, вы можете задать абсолютный путь к месту, где находится PDF-файл, и другой путь для выходного файла.
Что касается images/prefix, то идеальным вариантом будет выбрать такой, который хорошо идентифицирует изображения, а также формат jpeg или png, из которых два PNG обеспечивают более высокое качество.
После вышесказанного команда будет выглядеть следующим образом.
- pdfimages -all input.pdf sample
В результате в каталоге будут созданы файлы изображений с такой номенклатурой sample-nnn.png.
Если вы хотите использовать jpg, то добавьте опцию -j
- pdfimages -all -j input.pdf sample
Что касается опции -j, вы можете не получить желаемых результатов
Дополнительные опции для извлечения изображений
Приведенная выше команда извлекает все изображения, но во многих случаях мы хотим определить диапазон. Важный параметр, если файл очень длинный.
Для этого существуют опции -f и -l, которые определяют первую и последнюю страницу, с которой нужно извлечь изображения.
- pdfimages -f 1 -l 5 -png input.pdf images
Это, пожалуй, самая полезная опция, поскольку она позволяет нам ограничить выходные файлы.
Другой очень интересной опцией является параметр -p, которая включает номера страниц в имена выходных файлов.
- pdfimages -f 1 -l 5 -png -p input.pdf images
В пакет Poppler входит несколько консольных утилит для работы с PDF-файлами:
pdfdetach — отображает наличие и извлекает встроенные файлы
pdffonts — анализатор шрифтов
pdfimages — извлекает изображения
pdfinfo — отображает свойства документа
pdfseparate — извлечение отдельных страниц
pdftocairo — конвертер в форматы PNG, JPEG, PDF, PS (PostScript), EPS, SVG с использованием Cairo
pdftohtml — конвертер в HTML
pdftoppm — конвертер в изображения PPM, PNG, JPEG
pdftops — конвертер в PS
pdftotext — конвертер в текстовый файл
pdfunite — объединение документов
Short Descriptions
- pdfattach
добавляет новый встроенный файл в существующий файл PDF
- pdfdetach
перечисляет или извлекает встроенные файлы из файлов PDF
- pdffonts
перечисляет шрифты, используемые в файле PDF, а также различные информация для каждого шрифта
- pdfimages
сохраняет изображения из файла PDF в виде файлов PPM, PBM или JPEG
- pdfinfo
печатает содержимое словаря Info (плюс некоторые другая полезная информация) из PDF-файла
- pdfseparate
извлекает отдельные страницы из файла PDF
- pdfsig
проверяет цифровые подписи в PDF-документе
- pdftocairo
конвертирует PDF-файл в один из нескольких форматов (PNG, JPEG, PDF, PS, EPS, SVG) с помощью устройства вывода cairo библиотека попплера
- pdftohtml
конвертирует PDF-файл в HTML
- pdftoppm
конвертирует PDF-файлы в форматы PBM, PGM и PPM
- pdftops
конвертирует PDF-файлы в формат Postscript
- pdftotext
конвертирует PDF-файлы в обычный текст
- pdfunite
объединяет несколько PDF-файлов в порядке их появление в командной строке в один выходной файл PDF
Пример:
- $ pdfunite 1.pdf 2.pdf 3.pdf