python - Python Polyglot 中的 UTF-16 代码单元

Question

我需要从位置名称从 Python 字符串开始的字符串的开头提取 UTF-16 代码单元的数量。我正在使用 Polyglot NER 标记 Python 字符串中的位置。例如，“奥巴马出生在美国。但我出生在阿拉巴马州”，将标记“美国”和“阿拉巴马州”。Python Polyglot 提取器只是返回到标记的位置，以及它们从前面开始的单词数。如何从单词出现的字符串的开头计算出 UTF-16 代码单元的数量？

需要信息的 Java 接口https://github.com/Berico-Technologies/CLAVIN/blob/master/src/main/java/com/bericotech/clavin/extractor/LocationOccurrence.java

score 0 · Accepted Answer

只是为了澄清@Ignacio Vazquez-Abrams 的一些评论。在处理或分析文本时，您不必担心给定字符占用多少字节。这就是为什么您首先将编码文本“解码”为单独的文本/字符串表示，从而将“编码”排除在等式之外。

>>> encoded_text = 'hello world'.encode('utf16')
>>> encoded_text
b'\xff\xfeh\x00e\x00l\x00l\x00o\x00 \x00w\x00o\x00r\x00l\x00d\x00'
>>> type(encoded_text)
<class 'bytes'>
>>> len(encoded_text)
24


>>> decoded_text = encoded_text.decode('utf16')
>>> decoded_text
'hello world'
>>> type(decoded_text)
<class 'str'>
>>>
>>> len(decoded_text)
11

我确实UTF-16 code units在您发布的Java代码中看到了...

你可以做这样的事情来从一开始就获取字节数：

sentence = "Obama was born in the United States. But I was born in Alabama".encode('UTF-16LE')
word = 'United States'.encode('UTF-16LE')

bytes_from_start = None
for start_byte_position in range(len(sentence)):
    candidate = sentence[start_byte_position: start_byte_position + len(word)]
    if word == candidate:
        bytes_from_start = len(sentence[:start_byte_position])
        print('bytes from start: ', bytes_from_start)
        print('len(sentence[:start_byte_position]): ', len(sentence[:start_byte_position]))
        print('Preceding text: "{}"'.format(sentence[:start_byte_position].decode('UTF-16LE')))
        break

但尚不清楚UTF-16 代码单元是否== bytes。我有一种感觉，它真的只想要从一开始的字符数。如果这就是你所需要的，你可以使用 str 对象的 .index() 方法：

sentence = "Obama was born in the United States. But I was born in Alabama"
word = 'United States'
characters_from_start = sentence.index(word)

python - Python Polyglot 中的 UTF-16 代码单元

1 回答 1

Related

Reference