问题标签 [urlretrieve]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
255 浏览

python - 如何使用 Python urllib.urlretrieve 从带有令牌的 GitLab 下载图像)身份验证

我正在编写一个脚本,以将 GitLab 问题(在我的情况下是要求)作为 Markdown 文件持久保存在带有标签的存储库中,并通过 GitLab CI 作为 PDF 中的已编译需求文档。此外,脚本需要下载所有附加的资源(图像、图表、PDF 文件等),因此它们也可以进行版本控制。

该脚本是用 Python 3.6 编写的,并使用python-gitlab来使用GitLab API v4

请求问题描述文本后,会扫描该格式的图像 URL:![...](/uploads/<hash>/<filename>.<ext>). 每个相对路径都以 GitLab 的主机 URL 为前缀,并移交给urllib.urlretrieve.

运行请求时,我收到 HTTP 401 错误,因为我没有经过身份验证。

GitLab 通过令牌使用身份验证。如何使用此身份验证方法urllib

例如,当我使用Insomnia直接向 GitLabs API 执行 JSON 请求时,我使用Private-TokenHTTP 标头进行身份验证。我可以将此标头添加到urllib通话中吗?

0 投票
1 回答
83 浏览

python - 当我使用 BS 下载图像列表时,如何使用 for 循环修改字符串中的变量?

我正在使用 BeautifulSoup 用表格抓取页面。当我要使用 for 循环和“urlretrieve”在该表中下载一些图像时,我无法给每个图像一个不同的名称,因此每次下载图像时,它都会被新图像替换,因为它们有相同的名字。

换句话说,我无法更改字符串中的变量,以便为每个下载的图像赋予不同的名称。

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

0 投票
1 回答
2445 浏览

python - 我应该从“urllib.request.urlretrieve(..)”切换到“urllib.request.urlopen(..)”吗?

1. 弃用问题

Python 3.7URL中,我使用该urllib.request.urlretrieve(..)函数从 a 下载了一个大文件。在文档(https://docs.python.org/3/library/urllib.request.html)中,我在文档上方阅读了以下内容urllib.request.urlretrieve(..)

遗留接口
以下函数和类是从 Python 2 模块 urllib(与 urllib2 相对)移植而来的。它们可能会在未来的某个时候被弃用。

 

2. 寻找替代品

为了让我的代码永不过时,我正在寻找替代方案。Python 官方文档没有提到具体的文档,但它看起来urllib.request.urlopen(..)是最直接的候选者。它位于文档页面的顶部。

不幸的是,替代方案——比如urlopen(..)——没有提供reporthook论据。此参数是您传递给urlretrieve(..)函数的可调用对象。反过来,urlretrieve(..)使用以下参数定期调用它:

  • 块编号。
  • 块大小
  • 总文件大小

我用它来更新进度条。这就是为什么我错过了reporthook替代方案中的论点。

 

3. urlretrieve(..) 与 urlopen(..)

我发现urlretrieve(..)只是使用urlopen(..). 查看request.pyPython 3.7 安装中的代码文件(Python37/Lib/urllib/request.py):

4。结论

从这一切中,我看到了三个可能的决定:

  1. 我保持我的代码不变。让我们希望该urlretrieve(..)功能不会很快被弃用。

  2. 我给自己写了一个替换函数urlretrieve(..),在外部表现得像在urlopen(..)内部使用。实际上,这样的功能将是上面代码的复制粘贴。这样做感觉不干净——与使用官方相比urlretrieve(..)

  3. 我给自己写了一个替换函数,在外部表现得像urlretrieve(..),在内部使用完全不同的东西。但是,嘿,我为什么要这样做?urlopen(..)没有被弃用,那么为什么不使用它呢?

你会做出什么决定?

0 投票
0 回答
77 浏览

django - Python request.urlretrieve() 返回状态 500

我正在将 Django 与 Python 3.5 一起使用,并且我正在尝试从 URL 下载文件,并提供文件名和文件应该下载的路径。我正在使用urlretrieve此操作,但每次都会收到 500 错误。但是在 Postman 中测试时,API 工作正常。谁能帮助我哪里出错了?

0 投票
2 回答
43 浏览

python - urllib - 检索到的文件无法打开

我想从给定的链接中检索 pdf 文件。命令行输出显示文件已保存在指定位置

但是,当我转到文件目录时,test1.pdf 看起来已损坏。

下载的文件大小只有 1 KB,但实际文件应该在 4MB 左右。

0 投票
1 回答
47 浏览

php - 从服务器检索 PHP 记录?

我在https://www.vafinancials.com/v5/vcas/订阅了一个闭源服务。从 Web 控制面板,您可以像这样调出试点报告 (PIREP):

但一次只有一个。

在那个 URL 中,“fn”是每个 PIREP 的唯一地址,va是常数,fy/m/d指的是日期。

有了这些信息和适当的登录凭据,有人可以建议是否可以从网站上批量检索 1000 多个 PIREP?

0 投票
1 回答
470 浏览

python-3.x - Python 3 中的 urllib.request - 检查文件是否可下载

在 Python 3.8.2 我下载文件:

如何在不下载的情况下检查 url_address 上的文件是否可下载?我尝试使用try语句。它仅在无法下载文件时引发错误,但当来自给定 URL 地址的文件可下载时,它始终会下载。

0 投票
1 回答
58 浏览

python - 在 Python 中使用 urllib.urlretrieve 的 HTTPS 链接

我正在使用此代码,它在使用 HTTP 时工作正常,但在通过 HTTPS 连接时无法正常工作

有谁知道如何使用相同的代码连接到 HTTPS?

感谢大家的帮助。

0 投票
1 回答
42 浏览

python - 如何使用 Python 下载此图像?

我有一个这样的直接链接:https ://picjumbo.com/download/?d=cow.jpg&n=cow&id=1 。但我无法下载它,urllib.request.urlretrieve()因为当我访问这个网址时,浏览器会自动下载它。

0 投票
2 回答
262 浏览

python - urllib urlretrieve 仅将最终图像保存在 url 列表中

我对使用 Python 还是很陌生。我一直在尝试设置一个非常基本的网络爬虫来帮助加快我的工作日,它应该从网站的一部分下载图像并保存它们。

我有一个 url 列表,我正在尝试使用它urllib.request.urlretrieve来下载所有图像。

输出位置 ( savepath) 会更新,因此它将文件夹中当前的最高数字加 1。

我尝试了很多不同的方法,但urlretrieve只保存列表中最后一个 url 中的图像。有没有办法下载 url 列表中的所有图像?

savepath这是我每次尝试更新的代码