我在数据库中有记录(行),我想识别类似的记录。我有一个使用余弦相似度的约束。如果变量(属性、列)的类型不同并且以这种形式出现:
[number] [number] [boolean] [20 words string]
如何进行矢量化以应用余弦相似度?对于字符串,我可以使用简单的 tf-idf。但是对于数字和布尔值呢?这怎么能结合起来呢?我的想法是向量的长度为 1+1+1+20。但是,仅将记录的数字转换为我的向量中的系数并将它们与字符串的 tf-idf 连接以计算余弦相似度在语义上是否“有效”?或者我可以将数字视为单词并将 tf-idf 也应用于数字。还有其他技术吗?