我正在尝试从页面中获取这一行:
$ 55 326
我制作了这个正则表达式来获取数字:
player_info['salary'] = re.compile(r'\$ \d{0,3} \d{1,3}')
当我得到文本时,我使用 bs4 并且文本的类型为“unicode”
for a in soup_ntr.find_all('div', id='playerbox'):
player_box_text = a.get_text()
print(type(player_box_text))
我似乎无法得到结果。我也尝试过像这样的正则表达式
player_info['salary'] = re.compile(ur'\$ \d{0,3} \d{1,3}')
player_info['salary'] = re.compile(ur'\$ \d{0,3} \d{1,3}', re.UNICODE)
但我无法找到获取数据。我正在阅读的页面有这个标题:
Content-Type: text/html; charset=utf-8
希望得到一些帮助来弄清楚。