我正在尝试使用 juniversalchardet 自动检测已保存网页的编码,我的第一个测试使用 www.wikipedia.org,它根据 HTTP 响应标头使用 UTF-8 编码(此信息在保存到磁盘后丢失)
这是我这样做的scala代码:
val content = <...load Wikipedia.html from disk...>
val charsetD = new UniversalDetector(null)
charsetD.handleData(content, 0, content.length)
val charset = charsetD.getDetectedCharset
但是,无论我加载什么,字符集结果始终为“空”,是因为 juniversalchardet 库有缺陷吗?还是我用错了?