python - 需要 RE 来检测 UTF-8

Question

我有以下代码

inf = codecs.open(inPath , encoding='utf-8')
outf = codecs.open(outPath, encoding='utf-8', mode='w')
old = u'’;'
new = u'’&amp;#59;'
for line in inf:
    line = line.replace(old,new)
    asc = line.encode('ascii', 'xmlcharrefreplace')    
    outf.write(asc)
    # print asc
inf.close()
outf.close()

这（正确）使用数字格式将智能引号和重音字符等转换为它们的 html 实体格式。它会转换

<p>Dreams like: “Someday I’ll travel to…; someday I’ll write a book;

进入

<p>Dreams like: &#8220;Someday I&#8217;ll travel to&#8230;; someday I&#8217;ll write a book;

这都是正确的。

然而，代码更下游，看到…;中间，删除双分号，然后抱怨它没有得到一个有效的实体。我无法更改此代码。

从我的代码中可以看出，我发现了一个实体后跟分号的情况。我不想替换源中的所有分号。

如何检测代码点 > 127 的 UTF-8 字符后面的分号，以便我可以将其替换为;？谢谢。

score 1 · Accepted Answer

面对手掌！

如果我先转换为 htmlentites，然后用它替换;;可以;E解决我的问题。

自我注意——考虑你在哪里做事，以及做什么！

python - 需要 RE 来检测 UTF-8

1 回答 1

Related

Reference