0

如果我有 1000 个标记(我假设标记是预处理数据集后的特征),那么 1000 个标记(单词)会生成多少个二元组特征?是否每个标记都会与词汇表中的所有其他标记有一个二元组合?

我在问这个问题,因为我必须预先填写要保留在 weka 词汇表中的单词数

4

1 回答 1

0

您不能仅根据令牌的数量预先计算。Bigrams 是一对并排出现的标记(它是 n-gram 模型中的一个术语,你有一个序列的概念)。因此,为了计算二元组的数量,您必须在数据中滑动一个 2-token 窗口并检查您找到了多少不同的对。

如果您有来自某些数据 X 的 N 个标记,您只能说,二元组 B 的数量限制如下:N <= B <= N^2,但确切的数量需要上述过程。

于 2014-02-04T17:25:44.963 回答