“urlretrieve”的相关标签问题

0 投票

0 回答

255 浏览

python - 如何使用 Python urllib.urlretrieve 从带有令牌的 GitLab 下载图像）身份验证

我正在编写一个脚本，以将 GitLab 问题（在我的情况下是要求）作为 Markdown 文件持久保存在带有标签的存储库中，并通过 GitLab CI 作为 PDF 中的已编译需求文档。此外，脚本需要下载所有附加的资源（图像、图表、PDF 文件等），因此它们也可以进行版本控制。

该脚本是用 Python 3.6 编写的，并使用python-gitlab来使用GitLab API v4。

请求问题描述文本后，会扫描该格式的图像 URL：![...](/uploads/<hash>/<filename>.<ext>). 每个相对路径都以 GitLab 的主机 URL 为前缀，并移交给urllib.urlretrieve.

运行请求时，我收到 HTTP 401 错误，因为我没有经过身份验证。

GitLab 通过令牌使用身份验证。如何使用此身份验证方法urllib？

例如，当我使用Insomnia直接向 GitLabs API 执行 JSON 请求时，我使用Private-TokenHTTP 标头进行身份验证。我可以将此标头添加到urllib通话中吗？

2019-05-12T14:47:48.503

0 投票

1 回答

83 浏览

python - 当我使用 BS 下载图像列表时，如何使用 for 循环修改字符串中的变量？

我正在使用 BeautifulSoup 用表格抓取页面。当我要使用 for 循环和“urlretrieve”在该表中下载一些图像时，我无法给每个图像一个不同的名称，因此每次下载图像时，它都会被新图像替换，因为它们有相同的名字。

换句话说，我无法更改字符串中的变量，以便为每个下载的图像赋予不同的名称。

在此处输入图像描述

python beautifulsoup urlretrieve

2019-06-02T00:52:20.113

0 投票

1 回答

2445 浏览

python - 我应该从“urllib.request.urlretrieve(..)”切换到“urllib.request.urlopen(..)”吗？

1. 弃用问题

在Python 3.7URL中，我使用该urllib.request.urlretrieve(..)函数从 a 下载了一个大文件。在文档（https://docs.python.org/3/library/urllib.request.html）中，我在文档上方阅读了以下内容urllib.request.urlretrieve(..)：

遗留接口
以下函数和类是从 Python 2 模块 urllib（与 urllib2 相对）移植而来的。它们可能会在未来的某个时候被弃用。

2. 寻找替代品

为了让我的代码永不过时，我正在寻找替代方案。Python 官方文档没有提到具体的文档，但它看起来urllib.request.urlopen(..)是最直接的候选者。它位于文档页面的顶部。

不幸的是，替代方案——比如urlopen(..)——没有提供reporthook论据。此参数是您传递给urlretrieve(..)函数的可调用对象。反过来，urlretrieve(..)使用以下参数定期调用它：

块编号。
块大小
总文件大小

我用它来更新进度条。这就是为什么我错过了reporthook替代方案中的论点。

3. urlretrieve(..) 与 urlopen(..)

我发现urlretrieve(..)只是使用urlopen(..). 查看request.pyPython 3.7 安装中的代码文件（Python37/Lib/urllib/request.py）：

4。结论

从这一切中，我看到了三个可能的决定：

我保持我的代码不变。让我们希望该urlretrieve(..)功能不会很快被弃用。
我给自己写了一个替换函数urlretrieve(..)，在外部表现得像在urlopen(..)内部使用。实际上，这样的功能将是上面代码的复制粘贴。这样做感觉不干净——与使用官方相比urlretrieve(..)。
我给自己写了一个替换函数，在外部表现得像urlretrieve(..)，在内部使用完全不同的东西。但是，嘿，我为什么要这样做？urlopen(..)没有被弃用，那么为什么不使用它呢？