application/octet-streamApache Tika中是否有类型解析器?我想这是一个不可解析的流。
我只需要解析 ODS 文档、MS 文档和 PDF 文件。似乎这就 new Tika( ).parseToString(file); 足够了。但我无法弄清楚当未检测到内容类型时会发生什么 - >application/octet-stream是默认值。如果我有机会从属于其中一种类型的文档中提取文本,但 contentType 检测器没有检测到它们的类型。
除了将文档返回给用户告诉他它不受支持的格式之外,我还应该尝试什么。
或者结果内容类型真的是application/octet-stream我们无法阅读的信号吗?还是“你必须想办法解决这个问题”?