问题标签 [wget]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
9 回答
32041 浏览

perl - 如何完全镜像网页?

我在几个不同的网站上有几个网页,我想完全镜像。这意味着我需要图像、CSS 等,并且需要转换链接。此功能类似于使用 Firefox 来“将页面另存为”并选择“网页,完成”。我想将文件和相应的目录命名为合理的名称(例如 myfavpage1.html、myfavpage1.dir)。

我无权访问服务器,它们不是我的页面。这是一个示例链接:点击我!

再澄清一点...我有大约 100 个页面要镜像(许多来自慢速服务器),我将在 Solaris 10 上执行任务,并每小时将结果转储到 samba 挂载以供人们查看。而且,是的,我显然已经用几个不同的标志尝试了 wget,但我没有得到我正在寻找的结果。因此,指向 GNU wget 页面并没有真正的帮助。让我从一个简单的例子开始。

由此,如果我的标志正确,我应该会在 stackper.html 文件中看到https://stackoverflow.com/tags/perl页面。

0 投票
2 回答
5765 浏览

command-line - 如何在 Wget 中为未完成的下载设置临时目录?

我正在尝试在 FTP 服务器上镜像文件。这些文件可能非常大,因此下载可能会中断。我想在将部分文件下载到临时文件夹时保留原始文件,并在完成后覆盖本地旧版本。

  1. 我可以这样做吗?如何?
  2. 我可以使用其他易于使用的(命令行)工具吗?
0 投票
4 回答
35294 浏览

passwords - 为什么 wget 不接受我的用户名/密码?

我都试过了

但我不断收到错误

我知道文件在那里,而且我知道用户名/密码是正确的——我可以毫无问题地通过 ftp 进入。对这里发生的事情有任何想法吗?我什至如何判断是否wget注意我提供的用户名/密码?(如果我只是不提供该信息,则错误是相同的。)

0 投票
3 回答
1817 浏览

wget - wget 使用 root 以外的用户名

我正在尝试在此路径 /usr/test/ 下获取一个 jar 文件,但我只有 root 以外的用户 ID。所以在我发出 wget ftp://mike:passw0rd@xyz.test.com:/usr/test/getme.txt

代码返回:TYPE I ...完成。==> CWD 'mike.'/usr/test/... 没有这样的目录 `usr/test/'。

我相信问题出在我以 mike 的身份 ftp 之后,默认情况下我在 mike 个人目录中......问题将是如何使用 wget 并完成这项任务。

请帮忙!!!谢谢。

0 投票
4 回答
4470 浏览

shell - wget 错误会破坏 shell 脚本 - 如何防止这种情况发生?

我有一个巨大的文件,其中包含许多指向要下载的各种类型文件的链接。每一行都是一个下载命令,例如:

wget 'URL1'

wget 'URL2'

...

有成千上万的。

不幸的是,有些 URL 看起来真的很难看,例如: http ://www.cepa.org.gh/archives/research-working-papers/WTO4%20 (1)-charles.doc 它在浏览器中打开正常,但令人困惑wget。

我收到一个错误:

./tasks001.sh:第 35 行:意外标记“1”附近的语法错误

./tasks001.sh:第 35 行:`wget' http://www.cepa.org.gh/archives/research-working-papers/WTO4%20(1)-charles.doc ''

我已经尝试过使用 URL 和“URL”两种方式来指定要下载的内容。

有没有办法让这样的脚本在无人看管的情况下运行?如果它只是跳过它无法下载的文件,我很好。

0 投票
2 回答
1186 浏览

ruby - 如何在 ruby​​ 中快速下载大量网页?并行下载?

我需要抓取(使用 scrAPI)400 多个网页 ruby​​,我的实际代码是非常连续的:

实际上代码有点不同(异常处理和东西)。

我怎样才能让它更快?如何并行下载?

0 投票
4 回答
13021 浏览

linux - 可以为每个 http 请求分配一个新的 IP 地址吗?

每次需要使用 wget 等命令发出 http 请求时,我是否可以更改或分配我的服务器一个新的 IP 地址?

谢谢大家

更新

其原因正是 Tor 项目试图实现的目标。我不想留下我的服务器发出的请求的痕迹,我认为不断更改我的 IP 地址可以帮助我和我的用户使用互联网而不会被跟踪。:)

0 投票
4 回答
5686 浏览

apache - wget -k 在 Windows 和 Linux 上以不同方式转换文件

我有适用于 windows 和 linux 的GNU Wget 1.10.2并且-k选项在这两者上的行为不同。

-k, --convert-links 使下载的 HTML 中的链接指向本地文件。

在 Windows 上它产生:

在linux上它产生:

这在 linux 中是有问题的,因为当我通过 Apache 提供镜像时,它不会区分 4 个生成的页面,因为问号 ( ? ) 字符之后的部分用作文件的查询字符串。

关于如何控制它的任何想法?

谢谢

0 投票
4 回答
77876 浏览

linux - 哪个更好,curl 还是 wget?

它们是否相同?某些事情可以只用一个做,而不能用另一个做吗?那些是什么?或者,归根结底,这是一个熟悉的问题?

0 投票
1 回答
7012 浏览

wget - 仅在使用 wget 的 http 状态 200 时创建文件?

我一直在想办法让 wget 仅在实际下载响应有效时才创建文件,这意味着没有 404 或 500 状态代码,只有 200。

但是,当使用 -O 选项(指定文件名)时,它总是会创建带有错误页面内容的文件,而且我还没有找到一种方法来指定它在收到 404 响应时应该忽略它 -标题。

我需要检查退出代码并管道输出还是有更好的选择?