在网页抓取期间并在摆脱所有 html 标签后,我得到了 unicode (☎) 中的黑色电话字符 \u260e。但与这个回应不同,我也想摆脱它。
我在 Scrapy 中使用了以下正则表达式来消除 html 标签:
pattern = re.compile("<.*?>| |&",re.DOTALL|re.M)
然后我尝试匹配 \u260e ,我想我被反斜杠瘟疫抓住了。我尝试了这种模式但没有成功:
pattern = re.compile("<.*?>| |&|\u260e",re.DOTALL|re.M)
pattern = re.compile("<.*?>| |&|\\u260e",re.DOTALL|re.M)
pattern = re.compile("<.*?>| |&|\\\\u260e",re.DOTALL|re.M)
这些都不起作用,我仍然有 \u260e 作为输出。我怎样才能让它消失?