IE - 将最不频繁或信息丰富的二元组频率计数组合在一起。
EG - 如果我有一个序列的字母对频率计数,那么将相似特征合并在一起的好方法是什么。(例如:“KR”和“RK”成为一个单一的特征等等,或者将所有计数为0的对组合在一起......)。
我知道 scikit learn 有一种叫做“ward 的凝聚聚类”的东西,但这似乎是针对视觉数据/像素的,我对文本数据(蛋白质序列和生物信息学)感兴趣。如果有更直接的方法将特征连接在一起,我宁愿避免聚类。(我缺乏背景,之前没有做过聚类,特征分析对我们很重要)。谢谢!