1

我有以下描述我想使用我的程序报废。

<hr>通过接触美国空军的职能、部署和就业行动,为 AFROTC 学员提供多达 13 个实际领导和专业培训选项。外语和文化沉浸也可用/可能,但总体重点仍然是领导力发展和实习。所有计划都在选定的空军基地和美国和国外的其他地点进行。<br>

我有以下代码:

findDescription = re.findall('<hr>(.*?)(?:<strong>|<br>)', coursePage)

我得到以下输出:

['通过接触美国空军的职能、部署和就业行动,为 AFROTC 学员提供多达 13 个实际领导力和专业培训选项。\xc2\xa0 外语和文化沉浸也可用/可能,但总体重点仍然是领导力发展和实习。 \xc2\xa0 在选定的空军基地和美国和国外的其他地点进行的所有计划。']

为什么我\xc2\xa0在这里得到奇怪的东西?我的代码也被引号绊倒了"。坦率地说,我相信.我的正则表达式代码中的句点应该接受所有字符串。出了什么问题?

我感谢任何快速提示。我在星期五才听说正则表达式,我已经取得了巨大的进步,但是这个真的让我绊倒了几个小时。

热烈的问候, GeekyOmega

4

1 回答 1

5

\xC2\xA0 是 Unicode 字符 0xA0 的 UTF-8 编码,通常写为   在 html 文件中。

于 2013-02-03T21:18:55.467 回答