1

我需要分析用户的帖子并对其进行分类。例如:我必须根据文本将每个帖子分类为“购买”帖子或“出售”帖子 - “我正在寻找出售我的房子”被归类为“出售”。问题是它通常不是那么简单 - “我正在寻找摆脱我的旧房子”也需要归类为“出售”。“我在找房子”变成了“买”。我还想根据相关项目对这些帖子进行分类——例如,上面的帖子将被归类为“购买”和“房子”。

在分析和理解用户输入时,谁能推荐一个好的方法/好的框架/技术?谢谢。

4

2 回答 2

3

您所说的基本上是贝叶斯过滤问题,也用于垃圾邮件过滤。另见此谈话。这是一个相当复杂的领域。

于 2009-07-03T10:32:51.553 回答
2

你是对的; 这是一件很难的事情。

雅虎!有一个您可以使用的术语提取API/Web 服务。这是在您自己的文本上使用语言分析的一种非常好的方法,而无需自己编写一百万行代码。我没有使用它,所以我不知道它与类似含义的效果如何,正如你的问题所问的那样。

于 2009-07-03T10:33:55.280 回答