通常人们想通过使用词袋方法从文本中获取特征,计算单词并计算不同的度量,例如 tf-idf 值,如下所示: How to include words as numeric feature in classification
但我的问题不同,我想从一个单词中提取一个特征向量。例如,我想知道土豆和炸薯条在向量空间中彼此靠近,因为它们都是由土豆制成的。我想知道牛奶和奶油也很接近,热和温暖,石头和坚硬等等。
这个问题叫什么?我可以通过查看大量文档来了解单词的相似性和特征吗?
我不会用英文实现,所以我不能使用数据库。