python-3.x - `analyze_entities` 不遵守 UTF-8 编码

翻译自：https://stackoverflow.com/questions/49033462 2018-02-28T15:48:25.810

21 次

我正在尝试使用谷歌云language_v1api 从一些输入文本中提取命名实体，但是，我发现编码参数发生了一些可疑的事情。当我跑

txt = '''La divinité des uji la plus importante était ( et est toujours ) Amaterasu , la déesse solaire . '''.strip()
client = language.LanguageServiceClient()
document = types.Document(content=txt, type=enums.Document.Type.PLAIN_TEXT, language='fr')
ents = client.analyze_entities(document, encoding_type=EncodingType.UTF8)

ents可以正确检测到实体“Amaterasu”，但是返回的起始偏移量是 67 而不是 65。但是，如果我指定encoding_type=EncodingType.UTF16偏移量是正确的。

请注意，默认情况下，python 源代码文件的编码是 UTF-8，无论如何，如果我将文本存储在 UTF-8 文件中并使用正确的编码读取它，我会得到相同的结果。知道发生了什么吗？

python-3.x - `analyze_entities` 不遵守 UTF-8 编码

0 回答 0

Related

Reference