我正在做一个涉及到 sentence2vec 的 NLP 项目。我假设我将使用预先训练的词嵌入将标记转换为向量,然后继续进行句子嵌入。
由于我的句子涉及:停止词,如can't, won't, aret等,NLTK将简化为{ca, wo, are} + not。
所以我不能减少它们,我不想将它们作为停用词删除,因为下面提到的句子应该有不同的嵌入。
我叫普里扬克
我的名字不是普里扬克
另一个重要的疑问是如何在我的句子向量 中合并命名实体,例如Mark K. Hogg这样的人的名字。
我正在做一个涉及到 sentence2vec 的 NLP 项目。我假设我将使用预先训练的词嵌入将标记转换为向量,然后继续进行句子嵌入。
由于我的句子涉及:停止词,如can't, won't, aret等,NLTK将简化为{ca, wo, are} + not。
所以我不能减少它们,我不想将它们作为停用词删除,因为下面提到的句子应该有不同的嵌入。
我叫普里扬克
我的名字不是普里扬克
另一个重要的疑问是如何在我的句子向量 中合并命名实体,例如Mark K. Hogg这样的人的名字。
您可以从此列表中删除您不想成为停用词的词
# Open a file and read it into memory
file = open('words.txt')
text = file.read()
# Apply the stoplist to the text
clean = [word for word in text.split() if word not in stoplist]