semantic-web - 如何确定网络上的文档是否与其他文档在语义上相关？

Question

我的问题是，鉴于document d1 on the web and a document d2我如何判断 d1 和 d2 在语义上相关。是否有一些 API 可以进行一定数量的自然语言处理，这可能会给我一个提示，即 d1 可能与 d2 相关联。我急需它。请帮助！

score 2 · Accepted Answer

您可以使用特殊的微格式。在http://microformats.org/上查看更多信息

简单的例子：

<a href="http://creativecommons.org/licenses/by/2.0/" rel="license">cc by 2.0</a>

Rel-License 是几种微格式之一。通过将 rel="license" 添加到超链接，页面表明该超链接的目标是当前页面的许可证。

score 1 · Accepted Answer

对于语义相关的文档，您可以使用像 SKOS 这样的特殊词汇表并将它们关联到一个本体中。或者你可以直接在你的文档中使用——正如silex提到的——微格式。

对于自然语言处理，存在可以提取信息的不同工具，例如 GATE。但这不是一项微不足道的任务。

或许你可以细化你想做的事？您要定义哪些文档是相关的吗？或者你想要一个软件来找出哪些文件可能是相关的？

score 0 · Accepted Answer

您需要研究“命名实体提取”，即自然语言处理以提取两个文档共有的可能实体。这些通常是人、地点、事件、时间、组织。

查看 OpenCalais http://www.opencalais.com/了解此类技术的一些实际应用。

3 回答 3