从一些 PDF 文件中提取文本内容后,我注意到 tika 未对齐文档的文本,例如,我的原始 PDF 文档如下所示:
Animal name: Cat
Food stock: Avalaible
type: male
使用 tika 后:
cat
Animal name:
Available
Food stock:
male
type:
我怎样才能告诉 tika 保留空白?