application/octet-stream
Apache Tika中是否有类型解析器?我想这是一个不可解析的流。
我只需要解析 ODS 文档、MS 文档和 PDF 文件。似乎这就 new Tika( ).parseToString(file);
足够了。但我无法弄清楚当未检测到内容类型时会发生什么 - >application/octet-stream
是默认值。如果我有机会从属于其中一种类型的文档中提取文本,但 contentType 检测器没有检测到它们的类型。
除了将文档返回给用户告诉他它不受支持的格式之外,我还应该尝试什么。
或者结果内容类型真的是application/octet-stream
我们无法阅读的信号吗?还是“你必须想办法解决这个问题”?