4

我有兴趣为发布简短文本片段的用户生成建议的语义标签列表(通过指向 Freebase、Wikipedia 或其他系统的链接)。我不想“理解”文本真正在说什么,甚至不想自动标记它,我只是想向用户建议他/她的帖子最可能的语义标签。我的主要目标是强制用户在语义上进行标记,因此要保持一致,而不是用模棱两可的文本字符串来书写。如果市场上有功能合理且价格合理的工具,我会使用它。我还没有找到这样的工具,所以我正在寻找自己的工具。

我的问题首先是,如果有这样的工具我没有遇到过。我看过 Zemanta、AlchemyAPI 和 OpenCalais,但似乎没有一个能提供我需要的服务。

假设我正在编写自己的代码,我会在 Python 中编写它(除非有一个真正令人信服的理由来使用其他东西)。我的第一个猜测是在 Freebase 中搜索与“实体”匹配的 n-gram,并将它们建议为标签,也许还可以搜索实体的描述以变得“更智能”。如果这被证明是不够的,我会阅读并将我的脚趾浸入本体论的水中。由于这是一个非常困难的问题,而且我认为我的应用程序不需要它的解决方案,所以我想尽可能避免真正的语义分析。

有没有人有使用语义数据库系统的经验,并且可以给我一些关于从哪里开始以及期望什么样的陷阱的指示?

4

1 回答 1

-1

看看 NLTK python 库。它包含大量的工具、字典和算法。

于 2012-01-09T23:31:27.007 回答