1

我正在从这个网站提取数据。我确实为我的 xml 使用了 UTF-8,与网站的字符集相同,所以我真的不明白为什么数据编码不正确。

例如,从这个页面我得到Astrit Ajdarević代替Astrit Ajdarević,而Standard Liège不是Standard Liège等等......

详情:如何提取?

好吧,我正在使用WebHarvest在解析之前将 html 页面转换为有效的 xml。

因此,对于上面的示例,我使用//div[2]/div[1]/div[2]/div[2]/div[2]/table/tbody/tr[1]/td[2]/text()getAstrit Ajdarević//*[@id="site"]//div[contains(./div/h2, 'Spieler')]//tbody/tr[2]/td[position()=3]to get Standard Liège...

我希望这能回答你的问题 :)


解决方案:

<html-to-xml>
     <http url="${link}" charset="utf-8"/>
</html-to-xml>

感谢 mactwixs <3

4

1 回答 1

2

您可能需要在 Web-Harvest 配置文件中将 UTF-8 设置为默认值,否则它不会被设置为默认值。还要确保您拥有最新版本的 Web-Harvest (2.1)

请参阅以下内容:

手动 - 配置

手册 - HTTP 配置

类似的支持请求

您的浏览器解析的HTML还需要:

<meta http-equiv="content-type" content="text/html;charset=utf-8" />

如果这些都不起作用,我建议在 sourceforge 上提出支持请求。

于 2012-09-18T07:59:50.187 回答