0

我们有多个 PDF,其中包含帐户表和资产负债表。我们尝试了许多转换器,但结果并不令人满意。任何人都可以建议任何可以将 PDF 的内容复制到 HTML 中的精确结构的好的转换器。如果有任何付费转换器,请建议我。

  This is the PDF we want to convert and Show in html "http://www.marico.com/html/investor/pdf/Quarterly_Updates/Consolidated%20Financial%20Results%20-%20Q3FY11.pdf"
4

2 回答 2

1

你调查过这个吗?http://pdftohtml.sourceforge.net/

它也是开源的,所以它是免费的,可以根据需要进行修改。

甚至还有一个演示显示了之前的 PDF 和之后的 HTML 版本。如果你问我,还不错。

如果您在 PDF 中的表格方面遇到问题,那么问题可能出在表格本身以及用于生成表格的任何程序上。并非所有 PDF 都是平等的。

还: 请注意,我多年来创建和遇到的所有 PDF 在复制/粘贴文本块/文本行时都存在很多问题,这些文本块/文本行在任何给定页面上具有相同或更高的高度. 我认为 Acrobat 缺乏定义在什么之后选择什么块的“顺序”的能力(或者大多数程序没有正确使用它),所以系统排序从自上而下、从左到右的方式移动选择内容.....即使这意味着跳过大的空白区域或在您不期望的情况下一次从多列中抓取行。这可能是您的表格数据问题的一部分。您在这里的薄弱环节是 PDF 格式本身,我认为您可能对它期望过高。将任何内容转换为 PDF 几乎都是单行道,

于 2012-04-10T09:14:35.197 回答
0

你试过http://www.jpedal.org/html_index.php - 还有一个免费的在线版本

于 2012-04-10T12:01:23.653 回答