1

我正在开发一个“twitter 过滤器”——更多地学习 ruby​​ on rails 而不是其他任何东西。这个想法是我使用语义本体来查找用户的兴趣。因此,如果用户说他们对“体育”感兴趣,这意味着标记任何讨论“体育”“高尔夫”“足球”等的推文。

不过,我希望能够将其扩展到任何层次的主题。因此,如果您对欧洲感兴趣,请标记欧洲的所有国家。

自然这是相当复杂的,所以也许我们会将其限制为一两个“级别”的查找......

我怎样才能有效地做到这一点?我非常熟悉 Java、C 和 Ruby,并且在 MySQL 方面做了很多工作。

4

4 回答 4

2

我会研究 Doug Lenat 的Cyc。它已经完成并打开了。

于 2009-02-25T13:29:09.010 回答
0

我不确定你的要求是什么。但似乎奇异值分解(SVD) 或支持向量机(SVM) 都适合您。

于 2009-05-13T04:03:54.337 回答
0

我不确定它是否会帮助你,但谷歌有一个叫做谷歌集的东西。您可以在这里查看:http: //labs.google.com/sets

于 2009-02-25T13:33:44.613 回答
0

在考虑编程语言和技术之前,请先考虑一下:什么样的数据结构是“语义本体”?

对我来说,这听起来像是某种有向图

知道了这一点,您很快就会发现,用您想要的任何语言和技术来实现这样的结构都非常容易,而且许多语言已经实现了某种图形库(例如,用于 Ruby的RGL )。

对我来说,真正的问题不是如何实现这样的数据结构以及如何有效地做到这一点,而是如何从 twitter 中获取构建它所需的语义信息(例如,谁告诉你的应用程序欧洲不是西班牙的一部分但是那个西班牙是欧洲的一部分?)。

无论如何,玩得开心,听起来是一个很酷的项目!:-)

于 2009-03-13T20:35:59.460 回答