1

我使用 Apache Tika 来提取各种文件的文本。现在我还想用它来检测文件的正确 MIME 类型。

例如,这适用于...

  • PDF 文件 ( application/pdf)
  • HTML 文件 ( text/html)

...但不适用于:

  • CSS 文件(text/plain而不是text/css
  • Javascript 文件(text/plain而不是text/javascript
  • ...

(这些 Mime 类型的结果来自我的应用程序以及 tika-app)。

我的应用程序需要一个确切的 MIME 类型,text/css而不是一般的text/plain. 蒂卡有可能吗?

4

1 回答 1

2

你需要做两件事。首先,您需要向 Tika 提供文件名,以便它可以使用它来帮助将纯文本类型专门化为适当的子类型(CSS、JS 等)。其次,您需要确保您使用的是足够新的 Tika 版本。

我刚刚尝试使用最新版本的 Tika,并传入文件名,它可以很好地检测 JS 和 CSS 文件:

$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testCSS.css 
text/css

$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testJS.js
application/javascript

此外,最新版本的 Tika(从 r1400795 开始)有一个单元测试,可以自动验证 JS 和 CSS 检测工作,所以你可以加倍确定它工作正常!

于 2012-10-22T09:11:00.797 回答