我使用 Tika 已经有一段时间了,我知道应该只使用 Tika 外观和代表org/apache/tika/mime/tika-mimetypes.xml
文件的默认或自定义 TikaConfig。
我的应用程序不允许任何不同于html,doc,docx,odt,txt,rtf,srt,sub,pdf,odf,odp,xls,ppt,msg
并且默认的 MediaTypes 包括大量其他类型。
我们是否应该修改 tika-mimetypes.xml 以便删除我们不需要的 MimeTypes ?然后据我了解,它将仅为这些 MimeType 创建复合解析器和检测器。
但是当它提供不支持的类型时会发生什么?我应该只捕获 TikaException 或一些 SAXException 并拒绝该文件吗?
另外应该如何手动编辑 tika-mimetypes.xml ?它有 1290 个 MimeTypes,其中大部分是荒谬的第三方 MimeTypes。他们为什么在那里?