java - 使用 Java 或 .NET 库对来自 ColdFusion 的 PDF 执行光学字符识别？

Question

我正在寻找一个 PDF 并从中提取任何文本。然后，我想使用 ColdFusion 的可用 Verity 搜索来搜索内容。

是否有任何图书馆已经做得很好？我在范围内包括 Java 或 .NET（首选 Java）库，因为它们可以从 CF 调用。

任何见解或经验将不胜感激......谢谢！

编辑：据我所知，当文本嵌入到 PDF 中时，索引 PDF 文件有效。我必须处理的 PDF 将文本扫描为图像。

score 1 · Accepted Answer

默认情况下，Verity 应该能够索引 PDF 文件：

score 1 · Accepted Answer

如果您有能力运行自己的软件（即专用/VPS），那么您可以研究使用Tesseract OCR将cfexecutePDF 转换为文本吗？

score 0 · Accepted Answer

该系列的第 7 部分介绍了使用 DDX 从 PDF 中获取文本。

虽然不确定这是否符合您的 OCR 需求，但可能仍然值得一看。

score 0 · Accepted Answer

在一个半相关的笔记上，我发现了一篇关于在冷融合中编码和读取二维矩阵条形码的非常简洁的帖子。

这可能会解决我需要提取编码信息的一些问题，但我仍然关注文本的主体。

关于 tessnet，也找到了一个 .net 版本。 http://www.pixel-technology.com/freeware/tessnet2/ 如果我可以在本地输入 PDF 而不是 TIFF .. :)

4 回答 4