2

我有大量的 PDF 文件,需要将其转换为可以解释的结构化格式(HTML/XML/等)

PDF 格式如下:http: //img840.imageshack.us/img840/5407/pdfv.png

到目前为止,我已经尝试了很多转换为 HTML 的软件,但它们都没有分离图像的功能,它们只是像没有文本的页面的打印屏幕一样,然后将此图像用作 html 中的背景,使用css 来定位文本

像这样:http: //img37.imageshack.us/img37/5015/examplelp.jpg

我有一堆 PDF,因此不能手动处理每个图像。有谁知道任何解决方案(甚至是付费软件)?

4

1 回答 1

3

不久前我遇到了类似的问题,最终编写了自己的解决方案。它被称为PDFX,可以免费使用。它将 PDF 转换为结构化格式的 XML,并单独呈现 PDF 中的任何位图图像(不是矢量图形)。

示例输入/输出可以在这里找到。你可能想试一试。

于 2012-09-28T15:17:41.997 回答