ruby-on-rails - 处理来自网络抓取的无效字符

Question

我编写了一个网络爬虫，使用 Nokigiri 和 Mechanize 从网站中提取大量信息，它会输出数据库种子文件。不幸的是，我发现源网站上的文本中有很多无效字符，例如keppnisÃ¦find和ScÃ©mario，KlÃ¤tiring这会阻止种子文件运行。种子文件太大，无法进行搜索和替换，那么我该如何处理这个问题？

score 0 · Accepted Answer

这些几乎可以肯定是 UTF-8 字符；这些词应该看起来像keppnisæfind、Scémario 和Klätiring。有问题的网站可能正在发送 UTF-8，但没有将其声明为编码，在这种情况下，您将不得不强制 Mechanize 对没有声明编码的网站使用 UTF-8。但是，如果您遇到没有声明编码的其他网站并且它们发送除 UTF-8 之外的其他内容，这可能会使事情复杂化。

score 0 · Accepted Answer

我认为这些是 html 字符，您需要做的就是编写可以清除字符的函数。这取决于编程平台

ruby-on-rails - 处理来自网络抓取的无效字符

2 回答 2

Related

Reference