1) Загрузите файл PDF для конвертации XML
Перетащите файлы сюда или
Разрешенные типы файлов: pdf, ps, xps, pcl, pxl, prn, eps, djvu
2) Установить параметры конвертации PDF в XML
3) Получить конвертированный файл
Этот бесплатный инструмент конвертирует по одному файлу за раз. Total PDF Converter делает это пакетно - целые папки сразу, рекурсивно и из командной строки или .bat-скрипта.
💾 Загрузите ваш файл: Перейдите на сайт, нажмите «Загрузить файл» и выберите ваш файл PDF.
✍️ Установите параметры конвертации: Выберите XML в качестве формата вывода и при необходимости настройте дополнительные параметры.
Преобразовать и скачать: Нажмите «Скачать преобразованный файл», чтобы получить ваш файл XML.
Конвертация PDF в XML означает разбор содержимого документа — текста, таблиц, полей форм — и вывод структурированного, машиночитаемого XML-файла. В отличие от копирования и вставки текста из PDF, XML сохраняет структуру документа: какой текст принадлежит какому абзацу, какие ячейки принадлежат какой строке таблицы, какие значения принадлежат какому полю формы. Это делает вывод пригодным для автоматизированной обработки данных, а не только для чтения.
Регистрация не требуется, email не нужен, установка ПО не требуется.
Вывод — это правильно сформированный XML. Структура оборачивает каждую страницу в элемент <page> с дочерними элементами для текстовых блоков, строк таблиц, ячеек таблиц и полей форм. Атрибуты содержат координаты ограничивающего прямоугольника (x, y, ширина, высота), чтобы последующие парсеры могли восстановить отношения столбцов таблицы или сопоставить элементы с их физическим положением.
| Сценарий | Подробности |
|---|---|
| Импорт в Tally ERP | HTTP-шлюз TallyPrime принимает XML-ваучеры. Типичный рабочий процесс: PDF-счёт → XML → XSLT-преобразование → XML ваучера Tally → импорт в TallyPrime |
| Конвейеры данных SAP / Oracle | Разбор заказов на закупку, счетов или накладных в PDF-формате в структурированный XML, затем передача в интеграционные слои IDOC / BAPI |
| Автоматизация обработки счетов | Извлечение имени поставщика, номера счёта, позиций и итогов из PDF-счетов для автоматизации кредиторской задолженности (RPA-боты, Kofax, UiPath) |
| Анализ юридических документов | Структурированное извлечение пунктов, сторон и обязательств из договоров и судебных документов для систем управления жизненным циклом контрактов (CLM) |
| Обратный парсинг электронных счетов | PDF-файлы FACTUR-X и ZUGFeRD встраивают XML-полезную нагрузку внутрь контейнера PDF/A-3; для обычных PDF извлекайте видимые данные в XML для последующей обработки |
| Извлечение данных форм | Значения полей форм AcroForm и XFA извлекаются как именованные XML-элементы — полезно для массового извлечения ответов из стандартизированных PDF-форм |
Если PDF содержит только отсканированные изображения без встроенного текстового слоя (характерно для старых документов, факсов или фотокопий), OCR запускается автоматически для распознавания текста перед построением XML. Точность зависит от качества сканирования: 300 DPI, чистая бумага и печатный (не рукописный) текст дают наилучшие результаты. OCR-вывод заполняет ту же XML-структуру, что и PDF с нативным текстом.
| Источник PDF | Качество извлечения таблиц |
|---|---|
| Экспортировано из Word / Excel / LibreOffice | Отличное — границы ячеек закодированы в структуре PDF |
| Тегированный PDF (PDF/UA, соответствующий требованиям доступности) | Отличное — теги ролей сохраняют семантику таблиц |
| PDF, сгенерированный бухгалтерским ПО (SAP, Oracle) | Хорошее — структурированные текстовые потоки выравниваются по визуальным столбцам |
| Отсканированный и обработанный OCR | Умеренное — выравнивание столбцов зависит от точности OCR и качества страниц |
| Текст, позиционированный вручную (DTP, InDesign) | Вариативное — текстовые блоки могут не содержать метаданных о табличных отношениях |
| Функция | Онлайн-конвертер | Total PDF Converter (десктоп) |
|---|---|---|
| Ограничение размера файла | 50 МБ | Нет |
| Пакетная конвертация | По одному файлу | Тысячи PDF, целые папки |
| Командная строка / скрипты | Нет | Да — .bat, PowerShell, Планировщик заданий |
| Серверная версия с API | Нет | TotalPDFConverterX — DLL / ActiveX для интеграции в приложения |
| Конфиденциальность | HTTPS + автоудаление | Файлы никогда не покидают ваш компьютер |
| Стоимость | Бесплатно | $49.90 единоразово / 30-дневная пробная версия |
Total PDF Converter ($49.90) обрабатывает целые папки PDF-файлов в XML из командной строки — удобно для массовых конвейеров извлечения данных из документов:
pdfconverter.exe /S "C:\Invoices\*.pdf" /F XML /O "C:\XML-Output"
Добавьте /OCR для включения оптического распознавания символов в отсканированных PDF. Интегрируйте в конвейер автоматизации кредиторской задолженности или рабочий процесс обработки документов для извлечения структурированного XML из входящих PDF-счетов, заказов на покупку или банковских выписок по расписанию — готового для XSLT-преобразования и импорта в SAP, Oracle или Tally без ручного ввода данных. 30-дневная пробная версия доступна по ссылке Скачать Total PDF Converter
| Расширение файла | |
| Категория | Файл документа |
| Описание | Формат PDF разработан компанией Adobe Systems и предназначен для отображения элементов печатных документов – текста, фотографий, ссылок, схем, таблиц, интерактивных элементов, и т. д., в электронном виде. Документы можно просматривать с помощью бесплатного вьюера – Acrobat Reader. Можно просматривать как отдельные страницы, так и документы целиком. Формат используется для сохранения готовых отредактированных и оформленных журналов, брошюр и рекламных проспектов. При распечатке или передаче структура документа и страниц не меняется. |
| Ассоциированные программы | Adobe Viewer Ghostscript Ghostview Xpdf CoolUtils PDF Viewer |
| Разработано | Adobe Systems |
| Тип MIME | application/pdf application/x-pdf |
| Полезные ссылки | Более подробная информация о файлах PDF |
| Тип конвертирования | PDF в XML |
| Расширение файла | .XML |
| Категория | Файл документа |
| Описание | XML - это универсальный вид языка, который напоминает HTML. Хотя, казалось бы, у них довольно много общего, поскольку оба основаны на тегах и определяют содержание и структуру документовГ, они не могут заменить друг друга. Во-первых, HTML демонстрирует данные, а XML их описывает. Во-вторых, HTML использует стандартные теги, тогда как XML не использует ни одного, и пользователи, пишущие XML-документы, фактически изобретают их. XML представляются более простыми и гибкими, чем HTML, и они представляют собой очень последовательный способ обмена информацией. Между тем, эти файлы содержат статические данные, которые невозможно отобразить без программного обеспечения. |
| Ассоциированные программы | Chrome Firefox Microsoft Internet Explorer Microsoft Office InfoPath Notepad Oxygen XML Editor Safari |
| Разработано | World Wide Web Consortium |
| Тип MIME | |
| Полезные ссылки |