6

我正在建立一个网站,允许用户通过图形表示支持和反对特定问题的论点来理解辩论。(争吵

我想对这些辩论进行分类,以便更容易找到和联系起来。我不想通过要求他们在看到任何好处之前添加标签和类别来激怒创建辩论的人,所以我正在寻找一种自动提取关键字的方法。

有什么好的方法可以将辩论的标题和描述(可能还有辩论本身的内容)提取出来,比如说,十个强大的关键词,这些关键词可以用作元数据,将类似的辩论联系在一起,甚至作为可以查看辩论的 HTML 页面头部的“元”关键字标签的内容。例如。数据映射器与 ActiveRecord

该站点使用 Ruby 和 Sinatra 进行编码,使用 DataMapper 进行数据存储。理想情况下,我正在寻找可以在 Heroku 上运行的东西(我没有办法将文件动态写入磁盘),并且我会考虑使用 Web 服务、API 或理想情况下的 Ruby gem。

4

3 回答 3

7

也许您可以使用TextAnalyzer

于 2011-03-16T08:04:45.353 回答
2

我知道您想找到一种简单的方法来实现这一点,我最近潜入了 NLP(自然语言处理)和文本挖掘的世界,这是一个令人生畏的过程,其中大多数都超出了我的想象。

尽管我设法编写了一些类似于您正在寻找的功能,但我是在 PHP 中完成的。我的建议是,如果您希望它适合您的项目(Wrangl),那么请自己动手。

使用我确信会有 Ruby 代码 的Porter 词干算法。Ruby Porter 词干分析器

于 2011-03-16T13:01:42.420 回答
2

您可以尝试使用salsaAPI自动提取关键字并对辩论进行分类!

于 2011-03-16T15:46:37.893 回答