问题标签 [wget]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - 如何完全镜像网页?
我在几个不同的网站上有几个网页,我想完全镜像。这意味着我需要图像、CSS 等,并且需要转换链接。此功能类似于使用 Firefox 来“将页面另存为”并选择“网页,完成”。我想将文件和相应的目录命名为合理的名称(例如 myfavpage1.html、myfavpage1.dir)。
我无权访问服务器,它们不是我的页面。这是一个示例链接:点击我!
再澄清一点...我有大约 100 个页面要镜像(许多来自慢速服务器),我将在 Solaris 10 上执行任务,并每小时将结果转储到 samba 挂载以供人们查看。而且,是的,我显然已经用几个不同的标志尝试了 wget,但我没有得到我正在寻找的结果。因此,指向 GNU wget 页面并没有真正的帮助。让我从一个简单的例子开始。
由此,如果我的标志正确,我应该会在 stackper.html 文件中看到https://stackoverflow.com/tags/perl页面。
command-line - 如何在 Wget 中为未完成的下载设置临时目录?
我正在尝试在 FTP 服务器上镜像文件。这些文件可能非常大,因此下载可能会中断。我想在将部分文件下载到临时文件夹时保留原始文件,并在完成后覆盖本地旧版本。
- 我可以这样做吗?如何?
- 我可以使用其他易于使用的(命令行)工具吗?
passwords - 为什么 wget 不接受我的用户名/密码?
我都试过了
和
但我不断收到错误
我知道文件在那里,而且我知道用户名/密码是正确的——我可以毫无问题地通过 ftp 进入。对这里发生的事情有任何想法吗?我什至如何判断是否wget
注意我提供的用户名/密码?(如果我只是不提供该信息,则错误是相同的。)
wget - wget 使用 root 以外的用户名
我正在尝试在此路径 /usr/test/ 下获取一个 jar 文件,但我只有 root 以外的用户 ID。所以在我发出 wget ftp://mike:passw0rd@xyz.test.com:/usr/test/getme.txt
代码返回:TYPE I ...完成。==> CWD 'mike.'/usr/test/... 没有这样的目录 `usr/test/'。
我相信问题出在我以 mike 的身份 ftp 之后,默认情况下我在 mike 个人目录中......问题将是如何使用 wget 并完成这项任务。
请帮忙!!!谢谢。
shell - wget 错误会破坏 shell 脚本 - 如何防止这种情况发生?
我有一个巨大的文件,其中包含许多指向要下载的各种类型文件的链接。每一行都是一个下载命令,例如:
wget 'URL1'
wget 'URL2'
...
有成千上万的。
不幸的是,有些 URL 看起来真的很难看,例如: http ://www.cepa.org.gh/archives/research-working-papers/WTO4%20 (1)-charles.doc 它在浏览器中打开正常,但令人困惑wget。
我收到一个错误:
./tasks001.sh:第 35 行:意外标记“1”附近的语法错误
./tasks001.sh:第 35 行:`wget' http://www.cepa.org.gh/archives/research-working-papers/WTO4%20(1)-charles.doc ''
我已经尝试过使用 URL 和“URL”两种方式来指定要下载的内容。
有没有办法让这样的脚本在无人看管的情况下运行?如果它只是跳过它无法下载的文件,我很好。
ruby - 如何在 ruby 中快速下载大量网页?并行下载?
我需要抓取(使用 scrAPI)400 多个网页 ruby,我的实际代码是非常连续的:
实际上代码有点不同(异常处理和东西)。
我怎样才能让它更快?如何并行下载?
linux - 可以为每个 http 请求分配一个新的 IP 地址吗?
每次需要使用 wget 等命令发出 http 请求时,我是否可以更改或分配我的服务器一个新的 IP 地址?
谢谢大家
更新
其原因正是 Tor 项目试图实现的目标。我不想留下我的服务器发出的请求的痕迹,我认为不断更改我的 IP 地址可以帮助我和我的用户使用互联网而不会被跟踪。:)
apache - wget -k 在 Windows 和 Linux 上以不同方式转换文件
我有适用于 windows 和 linux 的GNU Wget 1.10.2并且-k选项在这两者上的行为不同。
-k, --convert-links 使下载的 HTML 中的链接指向本地文件。
在 Windows 上它产生:
在linux上它产生:
这在 linux 中是有问题的,因为当我通过 Apache 提供镜像时,它不会区分 4 个生成的页面,因为问号 ( ? ) 字符之后的部分用作文件的查询字符串。
关于如何控制它的任何想法?
谢谢
linux - 哪个更好,curl 还是 wget?
它们是否相同?某些事情可以只用一个做,而不能用另一个做吗?那些是什么?或者,归根结底,这是一个熟悉的问题?
wget - 仅在使用 wget 的 http 状态 200 时创建文件?
我一直在想办法让 wget 仅在实际下载响应有效时才创建文件,这意味着没有 404 或 500 状态代码,只有 200。
但是,当使用 -O 选项(指定文件名)时,它总是会创建带有错误页面内容的文件,而且我还没有找到一种方法来指定它在收到 404 响应时应该忽略它 -标题。
我需要检查退出代码并管道输出还是有更好的选择?