xml - XML 和重音字符

Question

我正在从这个网站提取数据。我确实为我的 xml 使用了 UTF-8，与网站的字符集相同，所以我真的不明白为什么数据编码不正确。

例如，从这个页面我得到Astrit AjdareviÄ代替Astrit Ajdarević，而Standard LiÃ¨ge不是Standard Liège等等......

详情：如何提取？

好吧，我正在使用WebHarvest在解析之前将 html 页面转换为有效的 xml。

因此，对于上面的示例，我使用//div[2]/div[1]/div[2]/div[2]/div[2]/table/tbody/tr[1]/td[2]/text()getAstrit AjdareviÄ和//*[@id="site"]//div[contains(./div/h2, 'Spieler')]//tbody/tr[2]/td[position()=3]to get Standard LiÃ¨ge...

我希望这能回答你的问题：）

解决方案：

<html-to-xml>
     <http url="${link}" charset="utf-8"/>
</html-to-xml>

感谢 mactwixs <3

score 2 · Accepted Answer

您可能需要在 Web-Harvest 配置文件中将 UTF-8 设置为默认值，否则它不会被设置为默认值。还要确保您拥有最新版本的 Web-Harvest (2.1)

请参阅以下内容：

手动 - 配置

手册 - HTTP 配置

类似的支持请求

您的浏览器解析的HTML还需要：

<meta http-equiv="content-type" content="text/html;charset=utf-8" />

如果这些都不起作用，我建议在 sourceforge 上提出支持请求。

xml - XML 和重音字符

1 回答 1

Related

Reference