security - URL检索服务的最佳实践？如何避免成为攻击媒介？

Question

我正在修改一个网络工具，给定一个 URL，它将检索文本并为用户提供有关内容的一些统计信息。

我担心为用户提供一种从我的盒子向网络上任意 URL 发起 GET 请求的方法可能会成为攻击的载体（例如 to http://undefended.box/broken-sw/admin?do_something_bad）。

有没有办法将这种风险降到最低？提供公共 URL 检索能力时有什么最佳实践吗？

我想过的一些想法：

谢谢你的帮助。

编辑：它将仅评估 HTML 或文本内容，而不下载或评估链接脚本、图像等。如果是 HTML，我将使用 HTML 解析器。

score 2 · Accepted Answer

统计数据是否仅与文档中的文本有关？您打算使用 HTML 解析器对其进行评估吗？

如果只是您要分析的文本，即不下载更多链接、评估脚本等，那么风险就不那么严重了。

通过防病毒程序传递您下载的每个文件可能不会有什么坏处。您还应该将 GET 限制为某些内容类型（即不要下载二进制文件；确保它是某种文本编码）。

1 回答 1