我有一个包含数十万个单词的 Python 列表。单词按照它们在文本中的顺序出现。
我正在寻找与包含该单词的字符串相关联的每个单词的字典,其中包含在它之前和之后出现的 2 个(比如说)单词。
例如列表:“This”“is”“an”“example”“sentence”
应该变成字典:
"This" = "This is an"
"is" = "This is an example"
"an" = "This is an example sentence"
"example" = "is an example sentence"
"sentence" = "an example sentence"
就像是:
WordsInContext = Dict()
ContextSize = 2
wIndex = 0
for w in Words:
WordsInContext.update(w = ' '.join(Words[wIndex-ContextSize:wIndex+ContextSize]))
wIndex = wIndex + 1
这可能包含一些语法错误,但即使这些错误得到纠正,我相信这将是一种非常低效的方法。
有人可以建议一个更优化的方法吗?