0

不确定这是否是这个问题的正确位置,但我无法找到任何其他建议媒介。

4

1 回答 1

0

文本提取。正如 mkl 在评论中提到的,PDF 可能已经包含一层文本(数字创建或预 OCRed),或者它可能是没有文本的纯图像 PDF(扫描或光栅化)。可以尝试现有的文本提取,但我认为它成功的机会很低,因为 PDF 没有用于文本提取目的的坐标信息。换句话说,以编程方式从 PDF 中提取所有现有文本非常容易,但很难从特定区域或区域中提取文本。出于这个原因,即使内部已经存在文本,OCR 也经常使用,因为 OCR 返回的文本具有非常详细的位置和区域信息,可以映射到图像坐标。

PDF 区域突出显示。我相信您要么必须重新构建一个突出显示某些区域的新 PDF,要么构建您自己的类似 PDF 的查看器,它将使图像和坐标以及文本和突出显示区域变得有趣。我会选择创建您自己的查看器的第二种选择,因为您对功能和 UI 有额外的控制。您的查看器可以将 PDF 作为输入并生成修改后的 PDF 作为输出,但是当您处理文档时,它不一定是 PDF,即使它在用户的角度看起来可能像 PDF,但增加了交互功能。

于 2013-06-03T16:36:27.020 回答