如果我有 1000 个标记(我假设标记是预处理数据集后的特征),那么 1000 个标记(单词)会生成多少个二元组特征?是否每个标记都会与词汇表中的所有其他标记有一个二元组合?
我在问这个问题,因为我必须预先填写要保留在 weka 词汇表中的单词数
如果我有 1000 个标记(我假设标记是预处理数据集后的特征),那么 1000 个标记(单词)会生成多少个二元组特征?是否每个标记都会与词汇表中的所有其他标记有一个二元组合?
我在问这个问题,因为我必须预先填写要保留在 weka 词汇表中的单词数