4

德国网站 nandoo.net 提供缩短新闻文章的可能性。如果您使用滑块更改百分比值,则文本会更改,并且会省略一些句子。

你可以在这里看到它的作用:

http://www.nandoo.net/read/article/299925/

新闻文章在左侧并标记了标签。滑块位于第二列的顶部。将滑块向左移动得越多,文本就越短。

你怎么能提供这样的东西?是否有任何算法可以用来实现这一目标?

我的想法是他们的算法计算句子中标签和名词的数量。然后省略标签/名词数量最少的句子。

那可能是真的吗?还是你有别的想法?

我希望你能帮助我。提前致谢!

4

2 回答 2

3

这是计算语言学的一个热门研究课题。使用贝叶斯过滤的浅层方法不太可能产生完美的结果 - 但无论如何您可能并不需要完美的结果。

在 CL 中,80-20 规则很快变成了 95-5 规则,所以如果您对通过浅层方法可以实现的目标感到满意,请跳过此答案。

如果你想看看你是否可以改进你的结果,你可以尝试找到一些更好的资源。您所指的任务在研究社区中称为“文本摘要”,它有自己的网页,已经过时了。Mani and Maybury (1999)可能是一个很好的概述(我自己没有读过),但也很陈旧。最近是 Martin Hassels关于该主题的论文,也相当详尽,包括与语言无关的(阅读:统计,即浅层)方法。

与往常一样,Google 也可以为您提供帮助。只需搜索文本摘要

于 2009-05-05T22:16:21.490 回答
2

通常,您希望保留具有该文章更独特的单词的句子。

也就是说,句子越“通用”,它对这篇特定文章的描述就越少。

执行此操作的正常方法是贝叶斯分析,很像垃圾邮件过滤器。首先确定整篇文章中哪些单词出现的频率比您预期的要高,然后找到包含这些单词的句子。

于 2009-04-13T00:36:41.047 回答