0

我们正在尝试使用以下命令将 PDF 转换为 XML

xquery version "1.0-ml";
let $results := xdmp:pdf-convert(
xdmp:document-get("d:\CFR-2010-title48-vol1.pdf"), "CFR-2010-title48-vol1.xml" ),
$manifest := $results[1]
return $results

但它没有为 PDF 生成 XML 输出。它生成了以下输出文件。

<parts xmlns="xdmp:pdf-convert"> <part>CFR-2010-title48-vol1_xml.xhtml</part> <part>CFR-2010-title48-vol1_xml_parts/01_00.jpg</part> <part>CFR-2010-title48-vol1_xml_parts/01_01.jpg</part> <part>CFR-2010-title48-vol1_xml_parts/conv.css</part> <part>CFR-2010-title48-vol1_xml_parts/toc.txt</part> </parts>

您能否建议如何为给定的 PDF 文件生成 XML 输出?

谢谢

文卡特

4

1 回答 1

1

返回的第一个文档 XML

您是否想获得 DocBook?为此,您需要运行整个上转换过程,最简单的方法是通过CPF转换应用程序运行文档,该应用程序通过一系列步骤和推论来达到这一点。

或者:您是否想知道为什么零件中的名称与第二个参数中的名称不匹配 to xdmp:pdf-convert?第二个参数只是用来调整生成的hrefs到图片;它不用于转换输出本身。

或者:如果您想直接从 的格式转换中以某种其他类型的XML (不是XHTMLxdmp:pdf-convert )为目标,您可以应用不同的配置文件。有关更多详细信息,请参阅有关该功能的文档。

于 2014-01-01T20:37:14.123 回答