我正在查看我计划建立的网站上的内容摘要。我宁愿为他们提供每个主题的摘要,而不是一页又一页的内容。
我对如何做到这一点有了一些想法,主要是找到最常用的单词和写一个简短的表格。这确实有帮助,即使少一个字符也会产生很大的不同。
有人愿意提出一些建议或为我指出正确算法的正确来源吗?我知道我必须自己开发算法,但在开始之前我正在做一些研究。
我正在查看我计划建立的网站上的内容摘要。我宁愿为他们提供每个主题的摘要,而不是一页又一页的内容。
我对如何做到这一点有了一些想法,主要是找到最常用的单词和写一个简短的表格。这确实有帮助,即使少一个字符也会产生很大的不同。
有人愿意提出一些建议或为我指出正确算法的正确来源吗?我知道我必须自己开发算法,但在开始之前我正在做一些研究。
我认为这很好地概述了不同的总结方法:http ://en.wikipedia.org/wiki/Automatic_summarization
NLTK 工具包作为起点也应该非常有用:http: //nltk.org/它已被用于构建摘要器,例如https://github.com/amsqr/NaiveSumm