-1

我最近使用 Java 和 JSoup (http://jsoup.org/) HTML 解析器编写了一个自定义网络爬虫/蜘蛛。网络爬虫非常初级——它使用 Jsoup 的connectget方法来获取页面的来源,然后使用其他 JSoup 方法来解析内容。它会随机跟踪它找到的几乎所有链接,但它不会尝试下载文件或执行脚本。

爬虫从一长串基本上随机的网页中挑选种子页面,其中一些可能包含成人内容和/或恶意代码。最近,当我运行爬虫时,我的防病毒软件 (Avast) 将其中一个请求标记为“检测到威胁”。有问题的 URL 看起来是恶意的。

我的问题是,我的计算机会通过我的网络爬虫感染病毒或任何类型的恶意软件吗?我应该采取任何预防措施或检查吗?

4

1 回答 1

4

理论上是可以的。

但是,由于您不执行 Flash 和类似插件,而只处理文本数据,因此您的 HTML 解析器很可能没有已知漏洞。

此外,所有的病毒和恶意网站都以用户群为目标。使用 JSoup 的用户很少。例如,大多数人都在使用 Internet Exploder。这就是病毒针对这些平台的原因。这些天来,Mac OSX 变得越来越有吸引力。我刚刚读到一个新的恶意软件,当他们访问一个网站时,它只会通过一些旧的 Java 安全问题感染 Mac OSX 用户。它是在达赖喇嘛相关网站上找到的,所以可能是中文的。

如果您真的很偏执,请在您的系统上设置一个“nobody”用户,这是您严格限制的。这在 Linux 上效果最好。特别是使用 SELinux,您可以将网络爬虫的权限缩小到可以阻止它访问任何内容的程度,除了加载外部网站并将结果发送到数据库。然后,攻击者只能使您的爬虫崩溃,或者可能滥用它进行 DDoS 攻击,但不会破坏或接管您的系统。

于 2012-12-08T09:39:27.450 回答