我正在制作一个允许使用 apache Solr 搜索 pdf 的应用程序。我无法在 pdf 中找到某些术语。
我注意到列中的单词被附加了。
例子
Column1 | Column2
stack | overflow
在这里,PdftextStripper 有时会给我 stackoverflow 作为提取的文本。这会导致 solr 中的错误标记化,从而阻止您找到该术语。(是的,我知道我可以使用通配符,但这在短语查询中不起作用)
我一直在查看来源以了解导致问题的原因。但似乎 writePage 方法必须猜测空格。我无法真正改变它,因为它看起来很复杂。
是否有任何其他解决方案可以从带有列的 pdf 中获得良好的文本提取?
- 也许某种转换其他程序。
- 也许是 pdfbox 的补丁。
- 是的,我见过类似的问题,但他们主要处理提取的顺序(在我的情况下这并不重要)。