python - 在 Python 中将十六进制 NCR 文本表示形式转换为 Unicode

Question

我有一个从中文网页中解析出来的字符串：

若き葉末には風が立ち 森は翡翠の息を返す 雲の切れ間から注ぐ 光に君を見初めん

碧き瞳のほほえむとき そは鐘のひびき胸に打つ さしのべた腕に絡む 蔦の葉に君を逃す

残る　香り 水面をかけゆく恋の舟 つかの間の波に　揺られ

やさしき幻影　心に映るその姿よ 永遠なる君に　想いを捧げん

若き葉末には風は眠り 森は密やかに息を止む 抱きしめた腕のなかで 静かに君は消えゆく

月は　満ちて 黄金の羽根が舞いおちる 我はただひとり森に

祈りたまえや

但是在解析它的过程中，它被转换成如下形式的Hex NCR字符串：

&#x82E5;&#x304D;&#x8449;&#x672B;&#x306B;&#x306F;&#x98A8;&#x304C;&#x7ACB;&#x3061;\n&#x68EE;&#x306F;&#x7FE1;&#x7FE0;&#x306E;&#x606F;&#x3092;&#x8FD4;&#x3059;\n&#x96F2;&#x306E;&#x5207;&#x308C;&#x9593;&#x304B;&#x3089;&#x6CE8;&#x3050;\n&#x5149;&#x306B;&#x541B;&#x3092;&#x898B;&#x521D;&#x3081;&#x3093;\n\n&#x78A7;&#x304D;&#x77B3;&#x306E;&#x307B;&#x307B;&#x3048;&#x3080;&#x3068;&#x304D;\n&#x305D;&#x306F;&#x9418;&#x306E;&#x3072;&#x3073;&#x304D;&#x80F8;&#x306B;&#x6253;&#x3064;\n&#x3055;&#x3057;&#x306E;&#x3079;&#x305F;&#x8155;&#x306B;&#x7D61;&#x3080;\n&#x8526;&#x306E;&#x8449;&#x306B;&#x541B;&#x3092;&#x9003;&#x3059;\n\n&#x6B8B;&#x308B;&#x3000;&#x9999;&#x308A;\n&#x6C34;&#x9762;&#x3092;&#x304B;&#x3051;&#x3086;&#x304F;&#x604B;&#x306E;&#x821F;\n&#x3064;&#x304B;&#x306E;&#x9593;&#x306E;&#x6CE2;&#x306B;&#x3000;&#x63FA;&#x3089;&#x308C;\n\n&#x3084;&#x3055;&#x3057;&#x304D;&#x5E7B;&#x5F71;&#x3000;&#x5FC3;&#x306B;&#x6620;&#x308B;&#x305D;&#x306E;&#x59FF;&#x3088;\n&#x6C38;&#x9060;&#x306A;&#x308B;&#x541B;&#x306B;&#x3000;&#x60F3;&#x3044;&#x3092;&#x6367;&#x3052;&#x3093;\n\n&#x82E5;&#x304D;&#x8449;&#x672B;&#x306B;&#x306F;&#x98A8;&#x306F;&#x7720;&#x308A;\n&#x68EE;&#x306F;&#x5BC6;&#x3084;&#x304B;&#x306B;&#x606F;&#x3092;&#x6B62;&#x3080;\n&#x62B1;&#x304D;&#x3057;&#x3081;&#x305F;&#x8155;&#x306E;&#x306A;&#x304B;&#x3067;\n&#x9759;&#x304B;&#x306B;&#x541B;&#x306F;&#x6D88;&#x3048;&#x3086;&#x304F;\n\n&#x6708;&#x306F;&#x3000;&#x6E80;&#x3061;&#x3066;\n&#x9EC4;&#x91D1;&#x306E;&#x7FBD;&#x6839;&#x304C;&#x821E;&#x3044;&#x304A;&#x3061;&#x308B;\n&#x6211;&#x306F;&#x305F;&#x3060;&#x3072;&#x3068;&#x308A;&#x68EE;&#x306B;\n\n&#x7948;&#x308A;&#x305F;&#x307E;&#x3048;&#x3084;

我想将此字符串转换为适当的 unicode 格式。

根据我的研究，我已经能够收集到例如一映射到 unicode string 的信息b'\\u4e00'。

这可以通过在字符串的开头剥离&#x和前缀 a以及使整个内容小写并通过在字符串之前添加 a 转换为字节字符串来手动完成。这是在这个repo中完成的，但是通过代码使用低效的 eval 函数，例如.\\ubeval("b'\\u4e00")

[编辑：上述段落不正确。它不是字节串，而是 python2 中存在的 unicode 字符串。正确的映射是一-> u'\u4e00']

有一个更好的方法吗？考虑到这些十六进制映射字符串可以出现在常规文本中间的边缘情况，例如：

Je me levais t&#xF4;t
Travailler en homme
Je me souviens du go&#xFB;t
Du caf&#xE9; br&#xFB;lant
Dans la tasse rouge
Et la femme qui dort
Les portes ouvertes de la grande usine
Bouffaient nos fils le jour de leurs quinze ans
On se levait t&#xF4;t
Sortis de nos draps
On se retrouvait en bas
Les rues du village s'allumaient d'un coup
A six heures moins le quart
Les portes ouvertes de la grande usine
Bouffaient nos fils bien avant leurs quinze ans
On se l&#xE8;ve trop t&#xF4;t
On sait plus quoi faire
Dans le caf&#xE9; des vieux
Les mains dans nos poches
Cachent nos poings noirs
Y'a plus qu'&#xE0; qui change pas
Les portes sont ferm&#xE9;es
Y'a plus de feu qui gronde
L'usine a tout vomi d'un seul coup
Pourquoi on fait &#xE7;a
Pourquoi &#xE7;a m'fait &#xE7;a
Pourquoi on nous fait &#xE7;a &#xE0; nous

我正在处理大量数据，其中这些字符可以散布在任何地方，我需要一种有意义的方式来处理它们。

那么有没有更好的方法来做到这一点？理想情况下，python 本身就支持它。

如果有人在这里解决我的问题，我将不胜感激。提前致谢。

score 2 · Accepted Answer

查看html标准库中的模块：

>>> import html
>>> html.unescape('Je me levais t&#xF4;t')
'Je me levais tôt'
>>> html.unescape('&#x82E5;&#x304D;&#x8449;&#x672B;&#x306B;&#x306F;')
'若き葉末には'

结果是一个 Unicode 字符串（str在 Python 3 中键入）。请注意，该b'...'符号用于字节字符串。您的示例中的文字b'\\u4e00'没有多大意义，因为它是一个包含 6 个字符（\、u、4、e、0、0）的字节字符串。您可能指的是'\u4e00'（或u'\u4e00'在 Python 2 中），它是一个单字符 Unicode 字符串。

python - 在 Python 中将十六进制 NCR 文本表示形式转换为 Unicode

1 回答 1

Related

Reference