我正在使用 JExcel 库来阅读 excel 电子表格。电子表格上的每个单元格都可能包含 44 种语言(英语、葡萄牙语、法语、中文等)中的任何一种的本地化字符串。今天我没有告诉 API 任何关于它应该使用的编码的信息。它处理中文还可以,但它总是搞砸葡萄牙语和德语。不知何故,默认编码(我的开发盒上的 MacRoman,生产上的 UTF-8)无法正确解释它从 excel 工作簿中提取的字符串。JExcel 解释文件字符编码的方式一定有问题。
话虽如此...
excel工作簿中的所有字符串是否都使用相同的字符集进行编码?
是否有工作簿元数据我可以问这个字符集是什么(我还没有找到)?
如果我通过 jchardet (http://jchardet.sourceforge.net/) 之类的东西运行所有单元格,是否能够预测整个工作簿的字符编码(这几乎取决于第一个问题是“是的,给定工作簿中的所有字符串都使用相同的字符集进行编码”)?
这么多问题,这么少时间。