我有一个文件列表,例如:
documents = [ 'this is document number 1',
'this is document number 2',
'this is document number 3',
...]]
和一个大约 200k 单词的向量:wordVector = ['word1', 'word2'.....'rare_word']
其中稀有词是向量中的最后一个词。此外,对应于 wordVector 中的每个单词,我有一个1x2
向量(因此是Nx2
完整 wordVec 的数组),它们是这些单词的表示。
现在,我想用数组的相应表示替换“文档”中的所有单词wordVector
,Nx2
如果找不到单词,或者文档为空,则为其分配NX2
数组的最后一个值。现在我正在使用循环并在 wordVec 中找到单词,然后替换它们。由于数据集很大,这个过程需要很多时间。有什么快速/pythonic的方法来完成这个吗?