4

我经营一个允许用户写博客文章的网站,我真的很想总结所写的内容并用它来填充<meta name="description".../>-tag。

我可以采用哪些方法来自动总结/描述用户生成内容的内容?
是否有任何(最好是免费的)方法可以解决这个问题?

(我见过其他网站只是复制前 100 个左右的单词,但这让我觉得这是一个次优的解决方案。)

4

10 回答 10

5

将摘要任务视为从文档中“选择最重要的句子”的挑战。

HP Luhn (1958)在The Automatic Creation ofliterature Abstracts中描述的方法描述了一种实际上执行得非常好的简单方法。试一试。

如果您的网站使用 Python 编码,那么使用NLTK(自然语言工具包)的算法是一项有趣的任务。

于 2009-10-02T20:35:35.540 回答
4

让它可预测。

从用户的角度来看,简单地使用第一段一点也不差。在某些情况下,使用任何自动化必然会失败。所以我建议将第一段(可能在某些时候截断)显示为摘要,并提供通过可选字段覆盖它的能力。

于 2009-10-01T11:54:13.130 回答
1

我可能会尝试使用机械 Turk 或任何其他众包选项。

于 2009-09-23T21:40:55.513 回答
1

另一个要检查的项目,SourceForge 项目,AutoSummary 语义分析引擎

于 2009-09-23T21:59:09.817 回答
1

不是一项简单的任务...您应该寻找有关“提取摘要”的文章或书籍

一些首发可能是:

图书:

文章:

于 2009-10-01T09:52:33.797 回答
1

雅虎为此提供了免费的 API:http: //developer.yahoo.com/search/content/V1/termExtraction.html

于 2009-10-07T01:48:39.813 回答
1

Apple 的专利 6424362 - 文档内容的自动摘要包含可能有用的示例代码...

于 2009-10-07T05:40:41.957 回答
0

这与人工智能接壤,因此不会有“简单”的解决方案,但有针对此问题的产品。

查看Copernic Summarizer,其中之一。

于 2009-09-23T21:51:15.397 回答
0

名词短语通常往往是句子的重要元素。选择具有高密度名词短语的句子可以产生一个很好的总结。您可以使用 POS 标记器获取名词短语。

为了一个好的总结,它是一个有意义的句子是可取的。读断句有点刺耳。

于 2009-10-07T05:22:40.730 回答
0

或者,当作者发布文章时,作者可以突出显示可以在描述中使用的关键字,然后可以自动将其放入元描述标签中。

于 2009-10-07T05:43:21.047 回答