我有一组与域有关的文档。这些文档中的数据可以在概念上映射到领域本体。我需要找到这些文档之间的相似度分数。在文献中,许多人提出创建一个概念向量(类似于术语向量),然后使用余弦定律计算相似度。
我知道如何为文档创建术语向量/tf-idf 向量。
例如:
假设我有两个描述两个用户配置文件的文档。
在标记化和词干化之后,我为每个文档准备了两个词袋。
Doc1: (tom,yahoo)
Doc2: (jerry,google)
这些词袋可以用每个文档的 tf-idf 向量来表示。
在这种情况下,余弦相似度分数将为零,因为它仅基于存在的确切单词。
但是,雅虎和谷歌都是搜索引擎并且两个用户都使用搜索引擎的知识在本体中被捕获。
雅虎“ is-a ”搜索引擎。
雅虎和搜索引擎作为概念存在于本体中,is-a 是连接这些概念的关系。
我想使用这些概念并为余弦定律创建一个向量。
但我不知道如何从本体中提取概念向量/包。
任何指针都会有所帮助。