我有一个匹配两个字符串的问题,即“更一般”、“不太一般”、“相同含义”、“相反含义”等。
字符串可以来自任何域。假设字符串可以来自人们的电子邮件。
举个例子,
String 1 = "movies"
String 2 = "Inception"
在这里我应该知道《盗梦空间》不如电影一般(有点像关系)
String 1 = "Inception"
String 2 = "Christopher Nolan"
在这里我应该知道,盗梦空间不如克里斯托弗诺兰一般
String 1 = "service tax"
String 2 = "service tax 2015"
乍一看,在我看来 S-match 可以完成这项工作。但我不确定 S-match 是否可以用于 WordNet 或 GeoWordNet 以外的知识库(如他们的页面中所述)。
如果我使用word2vec
or dl4j
,我想它可以给我相似度分数。但它是否也支持告诉一个字符串是more general
或less general
不是另一个?
但我确实看到 word2vec 可以基于训练集或维基百科等大型语料库。
有人可以在前进的路上照亮吗?