我正在尝试使用锅炉管从非英文文本中提取新闻文章。我已经看到了这一点,它对我不起作用。我做了以下更改 1) 修改了 HTMLfetcher.java。在方法 fetch 结束之前附加以下行
byte[] utf8 = new String(data, cs.displayName()).getBytes("UTF-8"); //new one (convertion)
cs = Charset.forName("UTF-8"); //set the charset to UFT-8
或/然后 2) 使用带有 Inuts 的 UTF-8 字符集更改类中的代码
`URL url = new URL(urls);
InputSource is = new InputSource();
is.setEncoding("ISO-8859-1");
is.setByteStream(url.openStream());
text = ArticleExtractor.INSTANCE.getText(is);`
还是不行 测试网址:http ://www.sandesh.com/article.aspx?newsid=2905443 文字:મુંબઈ, 30 જાન્યુઆરી
સલમાનખાનેનરેન્દ્રવખાણશુતેનીમુસીબતોમાંવધારોથઈછેછેછે。ફિલ્મફિલ્મહોનાપ્રમોશનઉત્તરાયણમાંઅમદાવાદઅમદાવાદહોવાથીઅનેતેસમયેનરેન્દ્રમોદીનાવખાણવખાણકર્યાકર્યાહોવાથીહોવાથીહોવાથીકોંગ્રેસફિલ્મફિલ્મફિલ્મફિલ્મફિલ્મફિલ્મફિલ્મહોહોહોહોહોહોહોનાજોવાનીજોવાનીકરવામાંકરવામાંકરવામાં છે。
请帮我。