我认为词袋对我的任务来说太简单了。我想要一些在特征向量中包含单词的位置信息。例如“好”是倒数第二个,等等。
问问题
234 次
1 回答
1
在大多数情况下,我们使用单词的二元组或三元组作为特征:它携带句子中的大部分词序信息,同时比每个单词的位置信息稀疏得多。
例如对于句子the cat ate the mouse
,trigrams 的特征是:
<b> <b> the, <b> the cat, the cat ate, cat ate the, ate the mouse, etc.
您也可以保留现有的 BOW 功能。
此外,如果您使用判别模型,您可以添加任何似乎与您的任务相关的特征,即使该特征不独立于您现有的特征。
显然,目标始终是在信息和稀疏性之间找到适当的平衡……这取决于您的数据集,您必须进行实验!
于 2013-02-26T16:16:24.587 回答