“读取 N 个单词”中的 N 是所有数据集中以空格分隔的单词总数。
“单词数 M”中的 M 是所有数据集中唯一单词的数量,构成您的词汇表。但是,如果选项“minCount”(单词出现的最小数量)设置为大于 1 的数字,则该数字实际上可能小于数据集中唯一单词的数量。
为了说明这一点,这里有一个例子。假设您有一个数据集:
__label__0 this sentence is an example
__label__1 here is another example
如果您使用 mincount = 1 运行 fasttext:
- 阅读的单词数将是 9 (N) : [this, sentence, is, an example, here, is, another, example]
- 大于 mincount 的唯一词数将为 7 (M) : [this, sentence, is, an example, here, another]
如果您使用 mincount = 2 运行 fasttext:
- 阅读的单词数将是 9 (N) : [this, sentence, is, an example, here, is, another, example]
- 大于 mincount 的唯一词数将为 2 (M) : [is, example]