1

我正在使用 requests.get 从 Google Ngrams 中检索数据。

我遇到了一个问题,当我在网站上查询带有重音字符的字符串时(在这种情况下我正在搜索"marcher d'un pas lourd"),它会返回"marcher d' un pas lourd".

正如您在返回的字符串中看到的那样,撇号已被替换为四位 Unicode 的撇号。

这弄乱了我的其余代码,因为我使用我的原始字符串查询 ( "marcher d'un pas lourd") 从返回的数据中查找我需要的数据。

是否有任何函数或程序可以在一串其他正常字符中搜索和转换四位 Unicode?请注意,我不想删除这些特殊字符,而是让它们在我的代码中得到正确的表示。

4

1 回答 1

1

这些被称为 HTML 实体,它们可以不转义:

>>> s="marcher d' un pas lourd"
>>> import html
>>> html.unescape(s)
"marcher d' un pas lourd"
于 2019-10-28T06:39:24.570 回答