-1

我正在为客户迁移一家商店。

我必须从她没有 FTP 访问权限的“商店”中提取所有旧图像文件。

它允许我导出文件名/url 列表。我的计划是在 Firefox 中加载它们并使用“Downloadthemall”来简单地下载所有文件。(大约 2000 年)。然而,大约 1 1/3 有 [ 和 ] 。

IE

cdn.crapshop.com/images/image[1].jpg

Downloadthemall 吓坏了,只把它读作

cdn.crapshop.com/images/image

并且不会下载它,因为它不是文件。

任何人都对另一种方法来提取这样的列表有任何想法吗?

4

1 回答 1

1

请参阅此解决方案,解释您提供的示例 URL 无效的原因:Validation。在您查看该帖子后,您会发现,在@good 提供的答案中,您必须使用百分比编码对不符合规范的字符进行编码,以便网络服务器能够理解它们。

这需要 python ......请参阅这篇文章:python 中的百分比编码

然后我们可以将它们放在一个脚本中,您将使用该脚本从 stdin 读取并输出到 stdout: python script.py < input > output.out

import urllib, sys

while 1:
    try:
        line = sys.stdin.readline()

    except KeyboardInterrupt:
        break

    if not line:
        break

    print urllib.quote(line.strip(), safe=':').strip('\'')

然后,希望下载它们都将解析已被脚本更正的文件列表(该脚本的输入应该是由换行符分隔的 url 列表)。

您可能也对这篇文章感兴趣:使用 python 下载文件。它向您展示了如何使用 python 下载文件(尤其是网页)。

祝你好运!

于 2012-10-15T17:24:39.810 回答