1

我有一个文件列表,例如:

documents = [ 'this is document number 1',
              'this is document number 2',
              'this is document number 3',
                                    ...]]

和一个大约 200k 单词的向量:wordVector = ['word1', 'word2'.....'rare_word']

其中稀有词是向量中的最后一个词。此外,对应于 wordVector 中的每个单词,我有一个1x2向量(因此是Nx2完整 wordVec 的数组),它们是这些单词的表示。

现在,我想用数组的相应表示替换“文档”中的所有单词wordVectorNx2如果找不到单词,或者文档为空,则为其分配NX2数组的最后一个值。现在我正在使用循环并在 wordVec 中找到单词,然后替换它们。由于数据集很大,这个过程需要很多时间。有什么快速/pythonic的方法来完成这个吗?

4

1 回答 1

3

让它成为一本字典,然后尝试类似的东西:

replacedWord = wordDict.get(currentWord, 'rare_word')

这应该会从字典中为您提供匹配的替换条目,如果没有这样的条目,将使用“rare_word”。

于 2013-09-18T11:12:42.917 回答