1

我对python有点陌生,但我正在尝试制作一个网络爬虫脚本,它可以下载网站上的所有图片。我正在使用 requests 和 PyQuery,因为很多人在研究后推荐了它。这就是我现在所拥有的一切,我不知道该去哪里。

r = requests.get("some url")
images = pq(r.text)
for image in images.find("img"):

我知道我需要获取 img 的来源,但是在找到 img 标签后我该怎么做呢?另外,我查看了一些 html 的页面源,一些图片存储在他们的数据库中,所以 src 以“/”一些扩展名开头,所以我想知道如何才能获得完整的 url。

4

1 回答 1

0

(python3)

from pyquery import PyQuery as pq
import requests
from urllib.parse import urljoin

url = "..."
response = requests.get(url).text
for image in pq(response)("img") :
    imgurl = urljoin(url,image.get("src"))

在您的辩护中,pyquery 文档似乎已经过时了。urllib 负责将相对 URL 合并为绝对 URL。

于 2015-01-22T06:26:10.663 回答