我正在使用 PDFBox 从 PDF 中提取文本。PDF具有表格结构,非常简单,并且列之间的间距也很宽
这非常有效,除了所有类型的水平空间都被转换为单个空格字符,因此我无法再将列分开(列中单词中的空格看起来就像列之间的空格)。
我很欣赏通用解决方案非常困难,但在这种情况下,列之间的距离真的很远,因此在“长空格”和“单词之间的空格”之间进行简单区分就足够了。
有没有办法告诉 PDFBox 将超过 x 英寸的水平空白变成单个空格以外的东西?比例方法(x 英寸变为 y 空间)也可以。
pdftotext C 库/工具有一个“-layout”开关,试图保留布局。基本上,如果我可以用 PDFBox 模拟它,那将是完美的。