我试图从页面源代码中获取一些信息。
例如,让我们以这个亚马逊产品为例。
我们可以检查源代码
我的目标是获取一些数据,例如产品描述(例如 1366x768 LED 显示屏)
我基本上获取了整个源代码,然后使用正则表达式来获取我需要的数据。
我在做这样的事情:
import requests
source = requests.get(someUrl)
data = re.findall(r'<span class=\"a-list-item\">(.*?)<\/span><\/li>', source.content)
这应该给我每一个产品描述,但我不断得到TypeError: cannot use a string pattern on a bytes-like object
我不知道我的正则表达式是错误的还是source.content没有给我源代码