python - 找到合适的正则表达式

Question

您能帮我找到正确的正则表达式以在这 2 个页面的每次提取（Margaux或）：Saint-Julien

在第 1 页：Margaux, Rouge

在第 2 页：2ème Vin, Saint-Julien, Rouge

我的代码：

item ["appelation"] = res.select('.//div[@class="pro_col_right"]/div[@class="pro_blk_trans"]/div[@class="pro_blk_trans_titre"]/text()').re(r'\s*\w+\-\w+\-\w+|\w+\-\w+|\[^Rouge,Blanc]')

我的正则表达式找不到 Margaux，但它提取了 Saint-Julien ！

score 0 · Accepted Answer

不知道你为什么需要这个，但假设s是你的 html 文件，那么这个正则表达式会找到你要找的东西..

import re
m = re.search(r"\<div\ class=\"pro_blk_trans_titre\"\>(.*)\</div\>", s)
print(m.group(1).strip().encode("utf8"))

# page1: b'Margaux, Rouge'
# page2: b'2\xc3\xa8me Vin, Saint-Julien, Rouge'

python - 找到合适的正则表达式

1 回答 1

Related

Reference