1

我认为词袋对我的任务来说太简单了。我想要一些在特征向量中包含单词的位置信息。例如“好”是倒数第二个,等等。

4

1 回答 1

1

在大多数情况下,我们使用单词的二元组或三元组作为特征:它携带句子中的大部分词序信息,同时比每个单词的位置信息稀疏得多。

例如对于句子the cat ate the mouse,trigrams 的特征是:

<b> <b> the, <b> the cat, the cat ate, cat ate the, ate the mouse, etc.

您也可以保留现有的 BOW 功能。

此外,如果您使用判别模型,您可以添加任何似乎与您的任务相关的特征,即使该特征不独立于您现有的特征。

显然,目标始终是在信息和稀疏性之间找到适当的平衡……这取决于您的数据集,您必须进行实验!

于 2013-02-26T16:16:24.587 回答