我有大量的 PDF 文件,需要将其转换为可以解释的结构化格式(HTML/XML/等)
PDF 格式如下:http: //img840.imageshack.us/img840/5407/pdfv.png
到目前为止,我已经尝试了很多转换为 HTML 的软件,但它们都没有分离图像的功能,它们只是像没有文本的页面的打印屏幕一样,然后将此图像用作 html 中的背景,使用css 来定位文本
像这样:http: //img37.imageshack.us/img37/5015/examplelp.jpg
我有一堆 PDF,因此不能手动处理每个图像。有谁知道任何解决方案(甚至是付费软件)?