伙计们
我有以下代码可以在我的爬虫上添加访问过的链接。提取链接后,我有一个for 循环,循环遍历每个单独的href 标签。
在我访问了一个链接并打开它之后,我会将 URL 添加到上面定义的访问过的链接集合变量中。
private final Collection<String> urlForntier = Collections.synchronizedSet(new HashSet<String>());
爬虫实现是多线程的,假设我访问了 100,000 个 url,如果我没有终止爬虫,它会一天比一天增长。它会产生内存问题吗?请问,我有什么选项可以刷新变量而不造成线程间的不一致?
提前致谢!