0

我有一组与域有关的文档。这些文档中的数据可以在概念上映射到领域本体。我需要找到这些文档之间的相似度分数。在文献中,许多人提出创建一个概念向量(类似于术语向量),然后使用余弦定律计算相似度。

我知道如何为文档创建术语向量/tf-idf 向量。
例如:
假设我有两个描述两个用户配置文件的文档。
在标记化和词干化之后,我为每个文档准备了两个词袋。

Doc1: (tom,yahoo)
Doc2: (jerry,google)
这些词袋可以用每个文档的 tf-idf 向量来表示。
在这种情况下,余弦相似度分数将为零,因为它仅基于存在的确切单词。

但是,雅虎和谷歌都是搜索引擎并且两个用户都使用搜索引擎的知识在本体中被捕获。
雅虎is-a搜索引擎
雅虎搜索引擎作为概念存在于本体中,is-a 是连接这些概念的关系。
我想使用这些概念并为余弦定律创建一个向量。
但我不知道如何从本体中提取概念向量/包。

任何指针都会有所帮助。

4

1 回答 1

2

这只是创建向量的一种方式,因为您不确定自己需要什么。首先,您需要使用诸如OWL-API之类的 API来访问本体中的信息。根据您的建议,您都需要提取建模元素,例如类、个体和属性。在您的情况下yahoo,可能是个人,search engine也可能是班级。所以你希望能够提取它们。如果您需要 OWL-API 示例,只需查看其他堆栈溢出问题,或阅读链接网站上的示例。

然后你需要提取公理,例如yahoo is a search engine。然后,如果您正在计算频率,您只需将它们视为句子并计算您需要的任何内容的频率。本体中有计算语义相似度或句法相似度的整个领域。打开谷歌学者并搜索它们。

于 2015-03-24T07:19:53.010 回答