poppler - утилита конвертации PDF

poppler - утилита конвертации PDF


#poppler #pdf #jpg

Для конвертации PDF в различные форматы можно воспользоваться poppler-utils.

Poppler — это библиотека рендеринга PDF, основанная на кодовой базе XPDF-3.0. Она используется для обработки PDF-файлов и позволяет разработчикам создавать программы для чтения и редактирования PDF-документов.

Poppler поддерживает множество операционных систем, включая Linux, macOS и Windows.

В пакете содержатся основанные на Poppler инструменты командной строки для получения информации о PDF-документах, их преобразованиях в другие форматы и редактированиях.

Конвертировать изображение в pdf.JPG в PDF в Linux с помощью ImageMagick

  • $ convert *.jpg file.pdf

В poppler-utils есть несколько программ, с помощью которых можно преобразовать PDF-документ в различные форматы:

  • pdftocairo — преобразование из PDF в PNG, JPEG, PDF, PS, EPS и SVG на основе Cairo;

Convert PDF to JPEG:

pdftocairo  -jpeg
  • pdftohtml — преобразование из PDF в HTML;

  • pdftoppm — преобразование из PDF в изображения PPM, PNG и JPEG;

  • pdftops — преобразование из PDF в PostScript (PS);

Convert pdf to svg:

- $ pdftocairo -svg -f 1 -l 19 test.pdf test.svg 

где:

- f - начальная страница

- l - последняя страница

- test.pdf - что конвертируем

- test.svg  - во что конвертируем

Если вам нужно преобразовать PDF-документ в какой-либо другой формат, можно воспользоваться одной из доступных утилит.

Например, преобразование PDF в PS осуществляется командой:

  • pdftocairo -ps example.pdf example.ps

Извлечение изображений из файла PDF

Процедура извлечения очень проста. Просто следуйте следующему синтаксису.

  • pdfimages -all input.pdf images/prefix

Приведенная выше команда берет все изображения из входного файла input.pdf и извлекает их в тот же каталог, что и запрос. Конечно, вы можете задать абсолютный путь к месту, где находится PDF-файл, и другой путь для выходного файла.

Что касается images/prefix, то идеальным вариантом будет выбрать такой, который хорошо идентифицирует изображения, а также формат jpeg или png, из которых два PNG обеспечивают более высокое качество.

После вышесказанного команда будет выглядеть следующим образом.

  • pdfimages -all input.pdf sample

В результате в каталоге будут созданы файлы изображений с такой номенклатурой sample-nnn.png.

Если вы хотите использовать jpg, то добавьте опцию -j

  • pdfimages -all -j input.pdf sample

Что касается опции -j, вы можете не получить желаемых результатов

Дополнительные опции для извлечения изображений

Приведенная выше команда извлекает все изображения, но во многих случаях мы хотим определить диапазон. Важный параметр, если файл очень длинный.

Для этого существуют опции -f и -l, которые определяют первую и последнюю страницу, с которой нужно извлечь изображения.

  • pdfimages -f 1 -l 5 -png input.pdf images

Это, пожалуй, самая полезная опция, поскольку она позволяет нам ограничить выходные файлы.

Другой очень интересной опцией является параметр -p, которая включает номера страниц в имена выходных файлов.

  • pdfimages -f 1 -l 5 -png -p input.pdf images

В пакет Poppler входит несколько консольных утилит для работы с PDF-файлами:

pdfdetach — отображает наличие и извлекает встроенные файлы

pdffonts — анализатор шрифтов

pdfimages — извлекает изображения

pdfinfo — отображает свойства документа

pdfseparate — извлечение отдельных страниц

pdftocairo — конвертер в форматы PNG, JPEG, PDF, PS (PostScript), EPS, SVG с использованием Cairo

pdftohtml — конвертер в HTML

pdftoppm — конвертер в изображения PPM, PNG, JPEG

pdftops — конвертер в PS

pdftotext — конвертер в текстовый файл

pdfunite — объединение документов

Short Descriptions

  • pdfattach

добавляет новый встроенный файл в существующий файл PDF


  • pdfdetach

перечисляет или извлекает встроенные файлы из файлов PDF


  • pdffonts

перечисляет шрифты, используемые в файле PDF, а также различные информация для каждого шрифта


  • pdfimages

сохраняет изображения из файла PDF в виде файлов PPM, PBM или JPEG


  • pdfinfo

печатает содержимое словаря Info (плюс некоторые другая полезная информация) из PDF-файла


  • pdfseparate

извлекает отдельные страницы из файла PDF


  • pdfsig

проверяет цифровые подписи в PDF-документе


  • pdftocairo

конвертирует PDF-файл в один из нескольких форматов (PNG, JPEG, PDF, PS, EPS, SVG) с помощью устройства вывода cairo библиотека попплера


  • pdftohtml

конвертирует PDF-файл в HTML


  • pdftoppm

конвертирует PDF-файлы в форматы PBM, PGM и PPM


  • pdftops

конвертирует PDF-файлы в формат Postscript


  • pdftotext

конвертирует PDF-файлы в обычный текст


  • pdfunite

объединяет несколько PDF-файлов в порядке их появление в командной строке в один выходной файл PDF

Пример:

  • $ pdfunite 1.pdf 2.pdf 3.pdf