1

我想配置一个不解析 XML 文件的 Tika 服务器。

我编写了以下配置文件:

<?xml version="1.0" encoding="UTF-8"?>
<properties>
  <parsers>
    <parser class="org.apache.tika.parser.EmptyParser">
    </parser>
  </parsers>
</properties>

此配置告诉 Tika 绝对不解析任何内容。特别是,它不应该解析 XML 文件。此外,它应该无法提取任何文档,因为支持的 EmptyParser 类型是空集。让我们通过启动 Tika 服务器来验证这一点:

java -jar tika-1.17-src/tika-1.17/tika-server/target/tika-server-1.17.jar --config tika_config.xml

并提交一个简单的 XML 文件(tika_config.xml 的副本):

curl -T samples/sample.xml http://localhost:9998/meta --header "Accept: application/json"

我们得到:

{"Content-Encoding":"ISO-8859-1","Content-Type":"application/xml","X-Parsed-By":"org.apache.tika.parser.html.HtmlParser","language":""}%

为什么 Tika 解析那个 XML 文件?此外,为什么它使用 HtmlParser 而不是 XML 解析器?

这种优惠待遇似乎特定于 XML,因为我无法使用纯文本、应用程序/pdf、应用程序/zip、应用程序/八位字节流甚至文本/html 来复制它!但是我找不到任何关于正在发生的事情的提示。

4

0 回答 0