当我尝试从我的 PDF 文件中提取文本时,它似乎会在几个单词之间随机插入空格。
我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本):http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -训练
我已经尝试过其他几个 PDF 文件,它似乎在几个页面上都在做同样的事情。
我执行以下操作:
java -jar pdfbox-app-1.6.0.jar ExtractText -force -console ~/Desktop/ped training pdf.pdf
在下载的文件上,您会在控制台的结果中看到错误插入以下空格:“• 如果孩子们能够安全地步行上学,这可能会减少拥堵。”
“• 为以后的生活养成好习惯。”
“www.sheff ield.gov.uk”
“超前思考!,这是基于”
等等等等
正如你所看到的,上面的几个单词之间有空格,我无法理解。
我在 ubuntu 上运行 Sun 的 JDK 1.6。
我已经在几个不同的 PDF 文件上尝试过这个,并尝试在论坛上搜索解决方案,有类似的错误,但似乎都已解决。
任何帮助或如果其他人有同样的问题,请发表评论。这会导致正确索引内容以进行搜索的大问题。