9

我目前正在开展一个项目,能够检测何时在正文中提到某个主题/想法将非常有用。例如,如果文本包含:

也许如果你告诉我更多关于琼斯先生是谁,那会有所帮助。如果我能描述一下他的外表,或者更好的是一张照片,那也很有用?

如果能够检测到此人要求提供琼斯先生的照片,那就太好了。我可以采取一种非常天真的方法,只寻找“照片”或“照片”这个词,但如果他们写了这样的东西,这显然是不好的:

请永远不要给我发琼斯先生的照片。

有谁知道从哪里开始?甚至可能吗?

我已经研究过 nltk 之类的东西,但我还没有找到一个人做类似事情的例子,我仍然不完全确定这种分析被称为什么。任何能让我离开地面的帮助都会很棒。

谢谢!

4

3 回答 3

3

可能对您有用的最好的东西是自动情绪分析。例如,这用于判断客户评论是正面的还是负面的。我无法为您提供可用工具的直接指示,但这是您正在寻找的。

不过,我必须说,这是自然语言处理领域当前的热门话题,我在会议上看到了许多论文。这绝对是一件相当复杂的事情,如果你从头开始,可能需要相当长的时间才能得到你想要的结果。

于 2010-05-23T18:53:40.380 回答
1

NLTK 是解析自然语言的一个不错的框架,但要注意这不是一件简单的事情。做这样的事情真的是研究级编程。

让事情变得更容易的一件好事是,如果您的领域非常有限 - 假设您的应用程序专注于有关著名作家的信息,那么您可以避免自然语言的一些复杂性,例如某些类型的歧义。

从哪儿开始?好问题。我不知道有关该主题的任何教程(我假设您尝试了 Google 选项),但我想 iTunes U 会有关于该主题的课程。如果不是,我可以发布一个链接,指向我已经完成的课程,其中提到了这个主题并且并不完全可怕: http: //www.inf.ed.ac.uk/teaching/courses/inf2a/lecturematerials/index.html #lecture01

于 2010-05-17T22:46:09.437 回答
1

你要解决的问题非常具有挑战性。

我将首先识别文本中的实体(称为命名实体识别的问题,谷歌搜索),然后我会尝试识别概念。

如果想大致识别文本是关于什么的,我建议您从使用 WordNet 开始,并根据单词及其在层次结构中的位置来识别所涉及的概念。如果您想创建一个显示真正智能的系统,那么您应该开始研究诸如 CYC (OpenCYC) 之类的资源,这将允许您将句子转换为 FOL 句子。

这个核心人工智能,解决您的问题的方法。对于简单的聊天机器人,依靠简单的统计方法会更容易。

祝你好运

于 2010-05-24T14:09:01.783 回答