0

我将一个 PDF 文档传递给 Apache Tika 软件,格式如下:

包含以下段落的 PDF 文档:

(iii) 50% of Text Text Text Text Text Text Text Text Text 
Text Text Text Text. 

Text Text Text Text Text Text Text 1 Text Text Text Text Text 
Text Text. 

我得到的文本格式与 PDF 文件中提供的输入文本格式相同。

但预期的输出是:

(iii) 50% of Text Text Text Text Text Text Text Text Text Text Text Text Text. 

Text Text Text Text Text Text Text 1 Text Text Text Text Text Text Text.

我想在一行中导出段落,而不是使用与输入文件中提供的相同格式。

我以这种方式打电话给 Tika:

private Tika tika = new Tika();
String content = tika.parseToString(file);

我在 content 变量中收到文件的内容。

是否有任何配置可以让我做到这一点?

4

0 回答 0