这是为可变长度因子序列分类定义合适内核的最佳方法。我正在使用带有 R 的内核实验室。
谢谢!
没有通用的好方法。可变长度因子意味着没有维度-维度关系,因此合适的核函数完全依赖于数据(问题)。
但是,假设您的因素只是一些大集合的元素,最基本的方法是使用基于 Jaccard 的内核,
K(A,B) = |A n B|
它只是测量交叉点的大小。很容易证明,它是一个有效的内核,因为可以考虑内核投影 phi(A),它将集合 A 编码为在第 i 个维度上具有“1”的位向量,当且仅当宇宙(从中采样 A)包含在 A 中。K 定义了这些元素的常规标量积。
您应该阅读以下内容:
动态时间规整(DTW) 启发的内核(具有 PDS 约束,例如全局对齐内核)。
通常用于 ADN 结构分析的字符串内核(参见频谱内核、失配内核……)。