1
./fastText-0.1.0/fasttext skipgram -input wiki_data/enwik9 -output wiki_data/result/enwik9
Read 142M words
Number of words:  847816
Number of labels: 0
Progress: 100.0%  words/sec/thread: 62604  lr: 0.000000  loss: 0.607538  eta: 0h0m

字数:M表示什么?为什么它与Read N words不同?

4

1 回答 1

3

“读取 N 个单词”中的 N 是所有数据集中以空格分隔的单词总数。

“单词数 M”中的 M 是所有数据集中唯一单词的数量,构成您的词汇表。但是,如果选项“minCount”(单词出现的最小数量)设置为大于 1 的数字,则该数字实际上可能小于数据集中唯一单词的数量。

为了说明这一点,这里有一个例子。假设您有一个数据集:

__label__0 this sentence is an example
__label__1 here is another example

如果您使用 mincount = 1 运行 fasttext:

  • 阅读的单词数将是 9 (N) : [this, sentence, is, an example, here, is, another, example]
  • 大于 mincount 的唯一词数将为 7 (M) : [this, sentence, is, an example, here, another]

如果您使用 mincount = 2 运行 fasttext:

  • 阅读的单词数将是 9 (N) : [this, sentence, is, an example, here, is, another, example]
  • 大于 mincount 的唯一词数将为 2 (M) : [is, example]
于 2018-07-13T09:23:14.323 回答