我wget
用来自动从网上下载一些网站、博客文章。
我将一些带有链接的列表(动态和可变的)传递给wget
它,它应该从传递的链接下载内容。
我看到了很多例子,用户成功下载了带有wget
.
但是所有这些方法都不适用于 Wordpress 文章或任何其他网站,其中 js、css 文件托管在不同的域中。
例如,如果博客 url 包含 wordpress.com,但 css、js 文件托管在 wp.com 的某个位置。
另外,如果我有,http://www.example.com/2013/01/04/article-title/
我只需要下载那篇文章而不需要下载其他文章,但是
--no-parent
wget 属性根本不下载 JS 和 CSS,因为这些文件的级别高于文章路径。
也许有人知道任何替代方案,因为wget
它适合单个文件下载,而不是 html?
我试过:
wget -Ep --convert-links http://www.example.com/2013/01/04/article-title/
这仅返回 html,没有 js、css。
更新: 问题:是否有任何工具,.net 框架,可以下载网站内容并具有与 wget 相同的功能。
更新 2: 好的,我发现 wget 下载更好(更干净,需要更少的空间)。感谢您链接到 superuser.com,我在那里找到了 wget 的解决方案:
wget -H -N -k -p --no-check-certificate -U "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0a2) Gecko/20110613 Firefox/6.0a2" someurl --content-disposition