问题标签 [wget]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
929 浏览

php - 用 PHP 控制 wget

我正在编写一个命令行 PHP 控制台脚本来监视新 URL 并为我正在处理的客户项目启动(大)下载。客户端目前正在使用稍微特定的 wget 命令手动下载它们,理想情况下希望继续使用它。

我想知道从 PHP 调用 wget 的最佳方法是什么,并注意是否已完成下载或出现的任何错误。目前,我使用的是基本的 shell_exec,但这不适合生产环境。

任何建议都会非常有帮助。

提前致谢。

0 投票
2 回答
1594 浏览

python - 在 Python 中确认 HTTP 下载成功

是否有一种简单可靠的方法来确认网络下载是否成功完成以使用 Python 或 WGET [对于大文件] 进行下载?我想确保在执行其他操作之前完整下载文件。

0 投票
4 回答
510 浏览

php - 如何从 URL 中获取实时文本?

我试图从一个不断发送文本的 URL 中获取所有数据(文本),我尝试使用 PHP,但这意味着脚本一直在运行,而这并不是真正的目的(我认为)。所以我最终使用了 BASH 脚本。

目前我使用 wget(我无法让 CURL 将文本输出到文件)

所以 wget 似乎工作得很好,除了一件事,每次我重新启动脚本 wget 都会清除 output.txt 文件并重新开始填充它,这不是我想要的。有没有办法告诉 wget 附加到 txt 文件?

此外,这是捕获实时数据流的最佳方式吗?我应该使用不同的语言,比如 Python 还是……?

0 投票
2 回答
143 浏览

html - 用于直接以十六进制形式查看网页的服务/应用程序?

是否有任何工具/网站/实用程序可用于以十六进制格式查看网站,因为它无法通过网络进行?

我从别人的 C++ 代码中得到了一些奇怪的非打印字符,我想识别这些字符以找出它们来自哪里。

我担心将文件写入磁盘会与写出的字符混淆(我认为这可能仅在使用文本编辑器保存它的情况下才是正确的,但我对此并不完全确定)。

过去我已经使用了一个名为 wget.exe 的工具来下载该页面,但我仍然不能完全确定它在将其写入磁盘之前不会对其进行修改。

还有十六进制编辑器本身呢?它是否修改文件(或文件的显示)?

这样(希望)可以让您大致了解我在这里寻找的内容。

0 投票
4 回答
891 浏览

http - 试图获取我的股票投资组合

我正在尝试将我的股票投资组合读入脚本。以下适用于 NAB Online Trading 但不适用于Bell Direct

  • 安装导出域 Cookies Firefox 插件
  • 使用 Firefox 登录我的在线经纪人
  • 将域 cookie 保存到文件(例如cookies.txt
  • wget --no-check-certificate --load-cookies=cookies.txt -O folio.htm https://...(作品集网址)

-- 这个想法是重用浏览器的登录会话。当我尝试使用 Bell Direct 时,它wget被重定向到登录页面。我得到相同的结果curl。我错过了什么?除了 cookie 之外,浏览器中是否还存储了一些状态?Bell 没有使用“基本身份验证”,因为登录页面是用户名/密码的表单——它不会弹出浏览器的内置登录对话框。

这是发生的事情(在带有 Cygwin 的 Windows XP 下):

$ wget --server-response --no-check-certificate --load-cookies=cookies-bell.txt -O folio-bell.htm https://www.belldirect.com.au/trade/portfoliomanager/
--2009-12-14 10:52:08-- https://www.belldirect.com.au/trade/portfoliomanager/
Resolving www.belldirect.com.au... 202.164.26.80
Connecting to www.belldirect.com.au|202.164.26.80|:443... connected.
WARNING: cannot verify www.belldirect.com.au's certificate, issued by '/C=ZA/ST=Western Cape/L=Cape Town/O=Thawte Consulting cc/OU=Certification Services Division/CN=Thawte Server CA/emailAddress=server-certs@thawte.com':
Unable to locally verify the issuer's authority.
HTTP request sent, awaiting response...
HTTP/1.1 302 Found
Connection: keep-alive
Date: Sun, 13 Dec 2009 23:52:16 GMT
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET
X-AspNet-Version: 2.0.50727
Location: /account/login.html?redirect=https://www.belldirect.com.au/trade/portfoliomanager/index.html
Cache-Control: private
Content-Type: text/html; charset=utf-8
Content-Length: 229
Location: /account/login.html?redirect=https://www.belldirect.com.au/trade/portfoliomanager/index.html [following]
...

0 投票
3 回答
856 浏览

ruby - Slow artifact downloads from Team City

I'm trying to download the last successful build from TeamCity as part of our rake deployment script. The file is a zip file that is 8mb, and I get over http, using a url:

http://buildserver/guestAuth/repository/download/bt12/.lastSuccessful/Build.7z

If I open that url in Firefox, the zip file downloads in about 1-2 seconds. Basically instant.

However, it's taking ages.

1) I tried using the ruby HTTP:Net library. It would take around 1 minute and sometimes fail. I read that in 1.8.6 this lib wasn't very fast though, so decided to move on.

2) I tried wget, so can see the progress. It gets to about 6mb with a second or so, then just hangs. Then after a minute suddenly completes.

3) I tried Fiddlerv2 to get some more output. It gets to about 7.9mb then does exactly the same as wget, takes about a minute.

I'm guessing it's either gonna be the client, our network, or TeamCity's web server.

Given that Firefox works ok, the network seems sound. So I'm investigating options with wget to try and get it to work quickly.

Any ideas what it could be, or is it a known issue with TeamCity?

0 投票
3 回答
4585 浏览

bash - Bash 脚本:如何解析命令的输出并根据该输出执行操作?

我正在使用 wget 从我们的一个服务器中获取一些文件,如果它们已更新,则每小时一次。我希望脚本在 wget 下载更新的文件时向员工发送电子邮件。

当 wget 不检索文件时,文本 wget 输出的最后一位是

如何查看那段文本,并且仅在没有看到该文本时才运行我的邮件命令?

0 投票
2 回答
5694 浏览

shell - 为什么 WGET 在成功之前会返回 2 条错误消息?

我正在使用脚本通过 WGET 在需要身份验证的 URL 上提取一些 XML 数据。

这样做时,我的脚本会为每个访问的 url 生成以下输出(更改 IP 和主机名以保护有罪者):

为什么WGET在成功连接之前会抱怨两次访问URL失败?有没有办法关闭它,或者让它在第一次尝试时正确连接?

作为参考,这是我用来调用 WGET 的行:

0 投票
4 回答
3757 浏览

pipe - 通过 wget 获取内存并绕过磁盘写入

是否可以将网站的内容(一组 HTML 页面)直接下载到内存而不写入磁盘?

我有一个机器集群,每台机器安装了 24G,但我被磁盘配额限制为几百 MB。我正在考虑将输出重定向wget到某种内存结构而不将内容存储在磁盘上。另一种选择是创建我自己的版本,wget但可能有一种简单的方法来使用管道

还有什么是并行运行此下载的最佳方式(集群有> 20个节点)。在这种情况下不能使用文件系统。

0 投票
4 回答
6745 浏览

bash - 带有输入文件和输出文件的 Wget

我有一个 URL 列表,我想使用 --input-file 将其输入 wget。

但是我不知道如何同时控制 --output-document 的值,如果您一一发出命令,这很简单。我想将每个文档保存为其 URL 的 MD5。

xargs 在那里,因为我还想利用 max-procs 功能进行并行下载。