无法从网页中提取字段数据,这不是常见的网页抓取问题。它也与 javascript 相关联。我也尝试过使用 python-requests,但无法解决问题。
我正在尝试从网页中提取 doi。doi 位于 javascript 中。我能够阅读该页面,并且代码可以运行到 {print(soup)}。当我试图提取 doi 值时(在给定的代码中,对于示例网页,doi 如下:“doi”:“10.1109/LAWP.2014.2364296”)我想打印“10.1109/LAWP.2014.2364296”,即从网页中提取。
import urllib
from bs4 import BeautifulSoup
web_page = 'https://ieeexplore.ieee.org/document/6933872'
page = urllib.request.urlopen(web_page)
soup = BeautifulSoup(page, 'html.parser')
print(soup)
soup.body.findAll(text='doi')
使用网页“https://ieeexplore.ieee.org/document/6933872”时,输出为 10.1109/LAWP.2014.2364296。我怎么能?