3

我一直在尝试在集体智能领域学习文本挖掘和其他相关的东西。我有兴趣制作一个可以扫描文档并在页面上显示相关帖子/文章的应用程序。

什么算法有助于检索所需信息?

谢谢

/一个

4

2 回答 2

2

一个简单的方法是统计页面上的非常用词及其实例。一个词出现的越多,就越能更好地描述帖子的内容。然后,您可以使用它来查找其他文章/帖子。

于 2010-02-17T06:36:41.707 回答
1

您可以使用资源描述框架 (RDF)。RDF 库包含结构化的知识和它们之间的联系。因此,您可以获取文本中每个单词的 RDF 记录并在图形中连接它们。具有最大边数的节点和根节点(如果图形像一棵树)将参考文档的主题。

于 2010-02-19T11:25:55.040 回答