1

我正在寻找一个 PDF 并从中提取任何文本。然后,我想使用 ColdFusion 的可用 Verity 搜索来搜索内容。

是否有任何图书馆已经做得很好?我在范围内包括 Java 或 .NET(首选 Java)库,因为它们可以从 CF 调用。

任何见解或经验将不胜感激......谢谢!

编辑:据我所知,当文本嵌入到 PDF 中时,索引 PDF 文件有效。我必须处理的 PDF 将文本扫描为图像。

4

4 回答 4

1

默认情况下,Verity 应该能够索引 PDF 文件:

http://livedocs.adobe.com/coldfusion/6/Developing_ColdFusion_MX_Applications_with_CFML/indexSearch2.htm#1142322

于 2009-01-30T19:31:27.270 回答
1

如果您有能力运行自己的软件(即专用/VPS),那么您可以研究使用Tesseract OCRcfexecutePDF 转换为文本吗?

于 2009-01-30T19:45:27.803 回答
0

Ray Camden 有一个关于在 ColdFusion 8 中处理 PDF的八部分系列。

该系列的第 7 部分介绍了使用 DDX 从 PDF 中获取文本。

虽然不确定这是否符合您的 OCR 需求,但可能仍然值得一看。

于 2009-01-30T19:38:37.613 回答
0

在一个半相关的笔记上,我发现了一篇关于在冷融合中编码和读取二维矩阵条形码的非常简洁的帖子。

http://www.stillnetstudios.com/2007/12/15/2d-barcodes-coldfusion/

这可能会解决我需要提取编码信息的一些问题,但我仍然关注文本的主体。

关于 tessnet,也找到了一个 .net 版本。 http://www.pixel-technology.com/freeware/tessnet2/ 如果我可以在本地输入 PDF 而不是 TIFF .. :)

于 2009-01-30T19:57:30.290 回答