我正在尝试使用 java.util.Scanner 获取维基百科内容并将其用于基于单词的搜索。事实是这一切都很好,但是在阅读一些单词时它会给我带来错误。查看代码并进行一些检查,结果发现有些单词似乎无法识别编码,或者内容不再可读。这是用于获取页面的代码:
// -开始-
try {
connection = new URL("http://it.wikipedia.org
wiki/"+word).openConnection();
Scanner scanner = new Scanner(connection.getInputStream());
scanner.useDelimiter("\\Z");
content = scanner.next();
// if(word.equals("pubblico"))
// System.out.println(content);
System.out.println("Doing: "+ word);
//End
意大利维基百科的“pubblico”一词出现了问题。pubblico 上的 println 的结果是这样的(剪切):ï¿ï¿½]Ksr>�~E �1A���E�ER3tHZ�4v��&PZjtc�¿½ï¿ ½D�7_|����=8��Ø}
你知道为什么吗?然而查看页面源和标题是相同的,具有相同的编码......
结果发现内容是压缩的,所以我可以告诉维基百科不要给我发送压缩的页面还是唯一的方法?谢谢你