我在从https://nlp.stanford.edu/projects/glove/下载的矢量文件 glove.6B.50d.txt 中找到了这两个词“dont”和“isnt” 。我想知道它们最初是否是“不”和“不是”。这可能取决于他们使用的 sentence_to_word 解析算法。如果有人熟悉,请确认是否是这种情况。
第二个问题是,这是否是处理诸如“不”、“不是”、“没有”等单词的撇号的常用方法。即过滤器用一个空字符串替换那个撇号,这样“don”和“t”就变成了一个词。
最后,我也不确定 GloVe 是否带有 API 来进行 sentence_to_word 解析,以便您可以与研究人员最初所做的保持一致。