我正在从这个网站提取数据。我确实为我的 xml 使用了 UTF-8,与网站的字符集相同,所以我真的不明白为什么数据编码不正确。
例如,从这个页面我得到Astrit Ajdarević
代替Astrit Ajdarević
,而Standard Liège
不是Standard Liège
等等......
详情:如何提取?
好吧,我正在使用WebHarvest在解析之前将 html 页面转换为有效的 xml。
因此,对于上面的示例,我使用//div[2]/div[1]/div[2]/div[2]/div[2]/table/tbody/tr[1]/td[2]/text()
getAstrit Ajdarević
和//*[@id="site"]//div[contains(./div/h2, 'Spieler')]//tbody/tr[2]/td[position()=3]
to get Standard Liège
...
我希望这能回答你的问题 :)
解决方案:
<html-to-xml>
<http url="${link}" charset="utf-8"/>
</html-to-xml>
感谢 mactwixs <3