0

我需要知道配置 Apache Tika 的方法。

现在我们正在使用它来解析我们的 html 文件,然后根据从 Apache Tika 解析器获得的解析数据进行搜索。

问题:Apache tika 实际上合并了来自不同 div 的可用数据,并且不包括它们之间的空间。

例如:如果我们有如下的 div:

<div1>Girish</div><div>Kumar</div>

解析的内容看起来像

吉里什库马尔

但我想要它

Girish(空间)库马尔

如何配置 Apache tika 以便在每个 div 之后包含一个空格?

现在我们已经在我们的一台服务器中安装了Apache Tika Jar并调用它来获取响应。

4

0 回答 0