regex - 正则表达式处理 Python 中的汉字字符

Question

所以对于我正在进行的这个网络抓取项目，我一直在尝试将一些结果与结果分开。基本上，如果标题包含指定されたページが见つかりません，我想复制网址并将其写入一个 fail.csv 文件。其他任何我想要复制 url 并将其写入 sucess.csv 的内容

html = 'www.abc.com'
url = BeautifulSoup(html,'html.parser').title.string
pattern = re.compile(r' 指定されたページが見つかりません')
if pattern.finditer(url):
with open('fail.csv','w') as f:
cw=csv.writer
cw.writerow([url])
else:
move on, run some other codes and write to sucess.csv

然而，似乎正则表达式无法识别指定されたページが见つかりません

我在这里做错了什么还是在这里遗漏了什么？

谢谢

score 0 · Accepted Answer

尝试

sudo pip3 install requests
sudo pip3 install beautifulsoup4
sudo pip3 install re

在python3下

import requests
import re
from bs4 import BeautifulSoup

r = requests.get('https://corp.rakuten.co.jp/careers/life/')
r.encoding='utf-8'
pattern = re.compile(r' 指定されたページが見つかりません')
url = BeautifulSoup(r.text,'html.parser').title.string
pattern.findall(url)

regex - 正则表达式处理 Python 中的汉字字符

1 回答 1

Related

Reference