0

有没有程序爬取指定的网站,如果有引用另一个网站就会吐出来?我有图像、视频文件、pdf 等。我需要给另一个开发人员以完成端口到他们的新服务器。

我刚刚将一个旧网站转移给另一个人,他们仍在使用我的文件。我不知道 100% 是所有文件,我想确定我需要给他们什么文件。如果有一个可以抓取的链接检查器之类的东西会很好,如果有对网站根目录(例如 sub.domain.com)的引用,那么它会吐出有关它的信息(什么页面,什么是 url)。

我现在不想阻止该网站使用这些文件,所以这已经结束了。

我在 Mac 上,所以任何终端程序都可以。

4

2 回答 2

1

您可以尝试使用Sitesucker下载站点上使用的所有文件(以及它链接到的任何文件,具体取决于设置)。它是 OSX(和 iPhone)捐赠软件,所以这可能正是您正在寻找的。我相信它会创建一个它下载的文件的日志文件,因此如果您只想将 URL 发送给您的同事而不是实际文件,则可以发送该文件。

于 2012-04-11T20:47:19.213 回答
0

你可以去看看wget。它可以递归(-r选项)下载网站并将其内容保存到您的硬盘。它通常(即,如果未另行指定)将所有内容下载到以主机命名的目录中。

但注意不要递归下载整个互联网;)所以一定要指定正确的--domains--exclude-domains选项。

于 2011-04-05T15:01:07.857 回答