python - 替换大列表中的所有单词

Question

我有一个文件列表，例如：

documents = [ 'this is document number 1',
              'this is document number 2',
              'this is document number 3',
                                    ...]]

和一个大约 200k 单词的向量：wordVector = ['word1', 'word2'.....'rare_word']

其中稀有词是向量中的最后一个词。此外，对应于 wordVector 中的每个单词，我有一个1x2向量（因此是Nx2完整 wordVec 的数组），它们是这些单词的表示。

现在，我想用数组的相应表示替换“文档”中的所有单词wordVector，Nx2如果找不到单词，或者文档为空，则为其分配NX2数组的最后一个值。现在我正在使用循环并在 wordVec 中找到单词，然后替换它们。由于数据集很大，这个过程需要很多时间。有什么快速/pythonic的方法来完成这个吗？

score 3 · Accepted Answer

让它成为一本字典，然后尝试类似的东西：

replacedWord = wordDict.get(currentWord, 'rare_word')

这应该会从字典中为您提供匹配的替换条目，如果没有这样的条目，将使用“rare_word”。

python - 替换大列表中的所有单词

1 回答 1

Related

Reference