1

我的问题是,鉴于document d1 on the web and a document d2我如何判断 d1 和 d2 在语义上相关。是否有一些 API 可以进行一定数量的自然语言处理,这可能会给我一个提示,即 d1 可能与 d2 相关联。我急需它。请帮助!

4

3 回答 3

2

您可以使用特殊的微格式。在http://microformats.org/上查看更多信息

简单的例子:

<a href="http://creativecommons.org/licenses/by/2.0/" rel="license">cc by 2.0</a>

Rel-License 是几种微格式之一。通过将 rel="license" 添加到超链接,页面表明该超链接的目标是当前页面的许可证。

于 2011-05-25T09:27:44.483 回答
1

对于语义相关的文档,您可以使用像 SKOS 这样的特殊词汇表并将它们关联到一个本体中。或者你可以直接在你的文档中使用——正如silex提到的——微格式。

对于自然语言处理,存在可以提取信息的不同工具,例如 GATE。但这不是一项微不足道的任务。

或许你可以细化你想做的事?您要定义哪些文档是相关的吗?或者你想要一个软件来找出哪些文件可能是相关的?

于 2011-05-25T10:19:03.100 回答
0

您需要研究“命名实体提取”,即自然语言处理以提取两个文档共有的可能实体。这些通常是人、地点、事件、时间、组织。

查看 OpenCalais http://www.opencalais.com/了解此类技术的一些实际应用。

于 2011-05-29T21:44:25.070 回答