我有嵌入 OCR 数据的 PDF 文件。(所以我已经对它们进行了 orcd)所以它们是可搜索的。现在我想提取这个 OCR 数据,因为我想放入我的 tomcat6 搜索服务器。为此,我需要普通的 OCR 数据。所以我的问题是,是否可以从 pdf 文件中提取这个嵌入的 OCR 数据?获得带有坐标的文件会很好。但是获取纯文本文件也足够了。
问问题
1481 次
我有嵌入 OCR 数据的 PDF 文件。(所以我已经对它们进行了 orcd)所以它们是可搜索的。现在我想提取这个 OCR 数据,因为我想放入我的 tomcat6 搜索服务器。为此,我需要普通的 OCR 数据。所以我的问题是,是否可以从 pdf 文件中提取这个嵌入的 OCR 数据?获得带有坐标的文件会很好。但是获取纯文本文件也足够了。