python - Web Scraper 的 PyQuery 代码

Question

我对python有点陌生，但我正在尝试制作一个网络爬虫脚本，它可以下载网站上的所有图片。我正在使用 requests 和 PyQuery，因为很多人在研究后推荐了它。这就是我现在所拥有的一切，我不知道该去哪里。

r = requests.get("some url")
images = pq(r.text)
for image in images.find("img"):

我知道我需要获取 img 的来源，但是在找到 img 标签后我该怎么做呢？另外，我查看了一些 html 的页面源，一些图片存储在他们的数据库中，所以 src 以“/”一些扩展名开头，所以我想知道如何才能获得完整的 url。

score 0 · Accepted Answer

(python3)

from pyquery import PyQuery as pq
import requests
from urllib.parse import urljoin

url = "..."
response = requests.get(url).text
for image in pq(response)("img") :
    imgurl = urljoin(url,image.get("src"))

在您的辩护中，pyquery 文档似乎已经过时了。urllib 负责将相对 URL 合并为绝对 URL。

python - Web Scraper 的 PyQuery 代码

1 回答 1

Related

Reference