-3

wget用来自动从网上下载一些网站、博客文章。

我将一些带有链接的列表(动态和可变的)传递给wget它,它应该从传递的链接下载内容。

我看到了很多例子,用户成功下载了带有wget.

但是所有这些方法都不适用于 Wordpress 文章或任何其他网站,其中 js、css 文件托管在不同的域中。

例如,如果博客 url 包含 wordpress.com,但 css、js 文件托管在 wp.com 的某个位置。

另外,如果我有,http://www.example.com/2013/01/04/article-title/我只需要下载那篇文章而不需要下载其他文章,但是 --no-parent wget 属性根本不下载 JS 和 CSS,因为这些文件的级别高于文章路径。

也许有人知道任何替代方案,因为wget它适合单个文件下载,而不是 html?

我试过:

wget -Ep --convert-links http://www.example.com/2013/01/04/article-title/

这仅返回 html,没有 js、css。

更新: 问题:是否有任何工具,.net 框架,可以下载网站内容并具有与 wget 相同的功能。

更新 2: 好的,我发现 wget 下载更好(更干净,需要更少的空间)。感谢您链接到 superuser.com,我在那里找到了 wget 的解决方案:

wget -H -N -k -p --no-check-certificate -U "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0a2) Gecko/20110613 Firefox/6.0a2" someurl --content-disposition
4

3 回答 3

2

要创建站点镜像,请检查httrack

于 2013-01-18T10:33:50.710 回答
0

对于在线阅读,我推荐Pocket

两者都有 chrome 的扩展和 firefox 的插件。

对于存储文章的副本,使用EvernoteClearly可以获得很好的效果。

于 2013-01-18T10:38:04.820 回答
-1

你自己说:“wget 适合单个文件下载,而不是 html”。好吧,它可以下载单个文件(或批处理文件,取决于命令行选项),它只是不会解析它们。这似乎就是你想要的。

看看这个建议使用该选项的答案,它的优点是可以从脚本或程序中调用,而我给你的另一个答案只能手动使用。lynx-dump

于 2013-01-18T10:42:48.210 回答