我正在尝试解析一些文本并绘制图表,就像你会写一个句子一样。我是 NLTK 的新手,正在尝试在 NLTK 中找到可以帮助我完成此任务的内容。到目前为止,我已经看到nltk.ne_chunk
和nltk.pos_tag
。我发现它们不是很有帮助,而且我找不到任何好的在线文档。
我也尝试过使用LancasterStemmer
,但我不完全理解它的作用或应该如何使用它,或者它为什么存在。
有人可以帮我解决这个问题吗?没有任何指路明灯,我真的很茫然,很沮丧。
提前致谢
我正在尝试解析一些文本并绘制图表,就像你会写一个句子一样。我是 NLTK 的新手,正在尝试在 NLTK 中找到可以帮助我完成此任务的内容。到目前为止,我已经看到nltk.ne_chunk
和nltk.pos_tag
。我发现它们不是很有帮助,而且我找不到任何好的在线文档。
我也尝试过使用LancasterStemmer
,但我不完全理解它的作用或应该如何使用它,或者它为什么存在。
有人可以帮我解决这个问题吗?没有任何指路明灯,我真的很茫然,很沮丧。
提前致谢
您所描述的实际上是一项非常艰巨的任务,因为最后,您的程序是成功还是失败是完全主观的衡量标准。在这种情况下,通常意味着很难构建一个程序来解决问题。有些人在大学里为解决这些问题而获得报酬。
如果您想尝试一下,我建议您尝试在自动词法分析工具上使用某种工具,而不是尝试手动解析和注释,然后利用您的解析树。通常分析树代表句法分析,即句子的结构。另一方面,您更关心语义分析,即它的含义 - 或者至少两个句子是否相似或不同(这实际上比某事的含义要容易一些)。
您可以查看一些现成的自动摘要工具。这些尝试根据句子对一段文本的重要性来对句子进行评分,并过滤掉不如指定阈值重要的句子。并不是说这真的对你有多大帮助,因为你仍然有需要合并摘要的问题。