2

这可能是一个非常难以回答的问题,但无论如何这是我的问题。

我想知道确定对话主题的最佳方法是什么。对话通过 IRC 进行。过去我写过聊天机器人,它们对这个话题的解释很好,但没有我想要的那么准确。

过去,我不得不列出常用词,例如“the”和“a”,然后从主题数组中过滤它们。我不知道这是否是正确的方法。

我想知道是否有某种频率算法可以让我计算出当前对话的主题是什么词。

任何关于如何实现这一点的建议将不胜感激。谢谢。

4

2 回答 2

1

有一种叫做齐夫定律的东西。它只能准确地应用于人类编写的文本,并且必须有一定的长度。

通过这种算法运行文本的结果将是一组关键字(原始文本的 5%-7%),它们紧密地描述了文本的主题。

于 2011-12-05T21:58:24.583 回答
1

自然语言处理可能非常困难,但您仍然可以获得一些基础知识。Daniel Gabriel 建议使用 Zipf 定律是一个很好的建议。

像 Manning 和 Schütze 的《统计自然语言处理基础》这样的概述书可能会有所帮助 - 它解释了许多常用技术,并将为您提供更专业的资源。

(他们的信息检索简介也很棒,网站上有免费的 PDF。)

于 2011-12-18T22:17:38.497 回答