我一直在尝试在集体智能领域学习文本挖掘和其他相关的东西。我有兴趣制作一个可以扫描文档并在页面上显示相关帖子/文章的应用程序。
什么算法有助于检索所需信息?
谢谢
/一个
我一直在尝试在集体智能领域学习文本挖掘和其他相关的东西。我有兴趣制作一个可以扫描文档并在页面上显示相关帖子/文章的应用程序。
什么算法有助于检索所需信息?
谢谢
/一个
一个简单的方法是统计页面上的非常用词及其实例。一个词出现的越多,就越能更好地描述帖子的内容。然后,您可以使用它来查找其他文章/帖子。
您可以使用资源描述框架 (RDF)。RDF 库包含结构化的知识和它们之间的联系。因此,您可以获取文本中每个单词的 RDF 记录并在图形中连接它们。具有最大边数的节点和根节点(如果图形像一棵树)将参考文档的主题。