在这个页面上似乎PyQuery
有问题 - 可能是因为它是xhtml
页面。或者可能是因为它使用命名空间xmlns="http://www.w3.org/1999/xhtml"
当我使用
pqPage.css('li')
然后我得到
[<{http://www.w3.org/1999/xhtml}html#sfFrontendHtml>]
{http://www.w3.org/1999/xhtml}
在元素中显示- 它是namespace
. 某些模块在HTML
使用名称空间方面存在问题。
我使用它没有问题Beautifulsoup
import requests
from bs4 import BeautifulSoup as BS
url = "http://www.floridaleagueofcities.com/widgets/cityofficials?CityID=101"
page = requests.get(url)
soup = BS(page.text, 'html.parser')
for item in soup.find_all('li'):
print(item.text)
编辑:在谷歌挖掘后,我发现使用parser="html"
inPyQuery()
我可以得到li
.
import requests
from pyquery import PyQuery
url = "http://www.floridaleagueofcities.com/widgets/cityofficials?CityID=101"
page = requests.get(url)
pqPage = PyQuery(page.text, parser="html")
for item in pqPage('li p'):
print(item.text)