Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
如果我有 1000 个标记(我假设标记是预处理数据集后的特征),那么 1000 个标记(单词)会生成多少个二元组特征?是否每个标记都会与词汇表中的所有其他标记有一个二元组合?
我在问这个问题,因为我必须预先填写要保留在 weka 词汇表中的单词数
您不能仅根据令牌的数量预先计算。Bigrams 是一对并排出现的标记(它是 n-gram 模型中的一个术语,你有一个序列的概念)。因此,为了计算二元组的数量,您必须在数据中滑动一个 2-token 窗口并检查您找到了多少不同的对。
如果您有来自某些数据 X 的 N 个标记,您只能说,二元组 B 的数量限制如下:N <= B <= N^2,但确切的数量需要上述过程。
N <= B <= N^2