0

所以对于我正在进行的这个网络抓取项目,我一直在尝试将一些结果与结果分开。基本上,如果标题包含指定されたページが见つかりません ,我想复制网址并将其写入一个 fail.csv 文件。其他任何我想要复制 url 并将其写入 sucess.csv 的内容

html = 'www.abc.com'
url = BeautifulSoup(html,'html.parser').title.string
pattern = re.compile(r' 指定されたページが見つかりません')
if pattern.finditer(url):
with open('fail.csv','w') as f:
cw=csv.writer
cw.writerow([url])
else:
move on, run some other codes and write to sucess.csv

然而,似乎正则表达式无法识别指定されたページが见つかりません

我在这里做错了什么还是在这里遗漏了什么?

谢谢

4

1 回答 1

0

尝试

sudo pip3 install requests
sudo pip3 install beautifulsoup4
sudo pip3 install re

在python3下

import requests
import re
from bs4 import BeautifulSoup

r = requests.get('https://corp.rakuten.co.jp/careers/life/')
r.encoding='utf-8'
pattern = re.compile(r' 指定されたページが見つかりません')
url = BeautifulSoup(r.text,'html.parser').title.string
pattern.findall(url)
于 2020-02-17T17:26:03.180 回答