0

我编写了一个网络爬虫,使用 Nokigiri 和 Mechanize 从网站中提取大量信息,它会输出数据库种子文件。不幸的是,我发现源网站上的文本中有很多无效字符,例如keppnisæfindScémarioKlätiring这会阻止种子文件运行。种子文件太大,无法进行搜索和替换,那么我该如何处理这个问题?

4

2 回答 2

0

这些几乎可以肯定是 UTF-8 字符;这些词应该看起来像keppnisæfind、Scémario 和Klätiring。有问题的网站可能正在发送 UTF-8,但没有将其声明为编码,在这种情况下,您将不得不强制 Mechanize 对没有声明编码的网站使用 UTF-8。但是,如果您遇到没有声明编码的其他网站并且它们发送除 UTF-8 之外的其他内容,这可能会使事情复杂化。

于 2012-07-19T23:04:11.757 回答
0

我认为这些是 html 字符,您需要做的就是编写可以清除字符的函数。这取决于编程平台

于 2012-07-19T22:28:13.067 回答