java - 网络爬行时的病毒/恶意软件危险

Question

我最近使用 Java 和 JSoup (http://jsoup.org/) HTML 解析器编写了一个自定义网络爬虫/蜘蛛。网络爬虫非常初级——它使用 Jsoup 的connect和get方法来获取页面的来源，然后使用其他 JSoup 方法来解析内容。它会随机跟踪它找到的几乎所有链接，但它不会尝试下载文件或执行脚本。

爬虫从一长串基本上随机的网页中挑选种子页面，其中一些可能包含成人内容和/或恶意代码。最近，当我运行爬虫时，我的防病毒软件 (Avast) 将其中一个请求标记为“检测到威胁”。有问题的 URL 看起来是恶意的。

我的问题是，我的计算机会通过我的网络爬虫感染病毒或任何类型的恶意软件吗？我应该采取任何预防措施或检查吗？

score 4 · Accepted Answer

理论上是可以的。

但是，由于您不执行 Flash 和类似插件，而只处理文本数据，因此您的 HTML 解析器很可能没有已知漏洞。

此外，所有的病毒和恶意网站都以大用户群为目标。使用 JSoup 的用户很少。例如，大多数人都在使用 Internet Exploder。这就是病毒针对这些平台的原因。这些天来，Mac OSX 变得越来越有吸引力。我刚刚读到一个新的恶意软件，当他们访问一个网站时，它只会通过一些旧的 Java 安全问题感染 Mac OSX 用户。它是在达赖喇嘛相关网站上找到的，所以可能是中文的。

如果您真的很偏执，请在您的系统上设置一个“nobody”用户，这是您严格限制的。这在 Linux 上效果最好。特别是使用 SELinux，您可以将网络爬虫的权限缩小到可以阻止它访问任何内容的程度，除了加载外部网站并将结果发送到数据库。然后，攻击者只能使您的爬虫崩溃，或者可能滥用它进行 DDoS 攻击，但不会破坏或接管您的系统。

java - 网络爬行时的病毒/恶意软件危险

1 回答 1

Related

Reference