我编写了一个网络爬虫,使用 Nokigiri 和 Mechanize 从网站中提取大量信息,它会输出数据库种子文件。不幸的是,我发现源网站上的文本中有很多无效字符,例如keppnisæfind
和Scémario
,Klätiring
这会阻止种子文件运行。种子文件太大,无法进行搜索和替换,那么我该如何处理这个问题?
问问题
184 次
我编写了一个网络爬虫,使用 Nokigiri 和 Mechanize 从网站中提取大量信息,它会输出数据库种子文件。不幸的是,我发现源网站上的文本中有很多无效字符,例如keppnisæfind
和Scémario
,Klätiring
这会阻止种子文件运行。种子文件太大,无法进行搜索和替换,那么我该如何处理这个问题?