0

我在从https://nlp.stanford.edu/projects/glove/下载的矢量文件 glove.6B.50d.txt 中找到了这两个词“dont”和“isnt” 。我想知道它们最初是否是“不”和“不是”。这可能取决于他们使用的 sentence_to_word 解析算法。如果有人熟悉,请确认是否是这种情况。

第二个问题是,这是否是处理诸如“不”、“不是”、“没有”等单词的撇号的常用方法。即过滤器用一个空字符串替换那个撇号,这样“don”和“t”就变成了一个词。

最后,我也不确定 GloVe 是否带有 API 来进行 sentence_to_word 解析,以便您可以与研究人员最初所做的保持一致。

4

1 回答 1

0

我认为 dont 和 isnt 最初是 don't 和 is not。我见过其他一些这样的例子。我怀疑这只是 GloVe 研究人员处理此问题的具体方式。

于 2019-11-22T21:03:16.400 回答