python - 阅读“BeautifulSoup”页面的具体问题

Question

我不想为任何产品做广告。

但是错误非常具体，我不知道如何询问。

我想在代码中的页面 A 上的菜单中获取链接，但该页面有另一个页面关联，B

当我阅读菜单时，它从 B 页获取菜单，我不明白为什么。

在 html 中，我看到所有函数和库都在域的页面 B 中。

有什么建议么？

from bs4 import BeautifulSoup
import http.cookiejar, urllib.request

mainurl="http://uk.example.com"



cookijar = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookijar))
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
mainPage = opener.open(mainurl)
mainPageRequest = mainPage.read()
mainPagesoup = BeautifulSoup(mainPageRequest)

menu=mainPagesoup.find("div", { "class" : "mainNavigation_linkList_content" })
print(menu)

我想要http://uk.example.com 和程序读取http://uk.example.co.uk/菜单

score 1 · Accepted Answer

urllib 似乎没有按照服务器预期的方式处理重定向。

首次安装请求：

pip install requests

然后试试这个：

import requests
from bs4 import BeautifulSoup

s = requests.Session()
mainPage = s.get("http://uk.accessorize.com")

mainPagesoup = BeautifulSoup(mainPage.text)
menu=mainPagesoup.find("div", { "class" : "mainNavigation_linkList_content" })
print(menu)

python - 阅读“BeautifulSoup”页面的具体问题

1 回答 1

Related

Reference