我需要知道配置 Apache Tika 的方法。
现在我们正在使用它来解析我们的 html 文件,然后根据从 Apache Tika 解析器获得的解析数据进行搜索。
问题:Apache tika 实际上合并了来自不同 div 的可用数据,并且不包括它们之间的空间。
例如:如果我们有如下的 div:
<div1>Girish</div><div>Kumar</div>
解析的内容看起来像
吉里什库马尔
但我想要它
Girish(空间)库马尔
如何配置 Apache tika 以便在每个 div 之后包含一个空格?
现在我们已经在我们的一台服务器中安装了Apache Tika Jar并调用它来获取响应。