我有一个 python 字符串和一个选定文本的子字符串。例如,字符串可以是
stringy = "the bee buzzed loudly"
我想在这个字符串中选择文本“bee buzzed”。我有这个特定字符串的字符偏移量,即 4-14。因为这些是所选文本之间的字符级别索引。
将这些转换为单词级别索引的最简单方法是什么,即 1-2,因为正在选择第二个和第三个单词。我有很多这样标记的字符串,我想简单有效地转换索引。数据当前存储在字典中,如下所示:
data = {"string":"the bee buzzed loudly","start_char":4,"end_char":14}
我想把它转换成这种形式
data = {"string":"the bee buzzed loudly","start_word":1,"end_word":2}
谢谢!