4

我正在爬取新闻网站,想提取新闻标题、新闻摘要(第一段)等

我插入了 webkit 解析器代码,以轻松地将网页作为树导航。为了消除导航和其他非新闻内容,我采用了文章的文本版本(减去 html 标签,webkit 提供了相同的 api)。然后我运行 diff 算法比较来自同一网站的各种文章的文本,这导致相似的文本被消除。这给了我内容减去常见的导航内容等。

尽管采用了上述方法,但我的最终文本中仍然有些垃圾。这会导致提取不正确的新闻摘要。错误率为 10 篇文章中有 5 篇,即 50%。错误如

你可以吗

  1. 建议提取纯内容的替代策略,

  2. 学习自然语言处理是否有助于从这些文章中提取正确的摘要?

  3. 您将如何解决上述问题?

  4. 这些研究论文是否相同?

问候

安库尔古普塔

4

3 回答 3

3

您可以查看我在 Google Code 上的样板项目,并使用 Google AppEngine 上的实时网络应用程序(从那里链接)在您选择的页面上对其进行测试。

我正在研究这个领域,并写了一些关于从 HTML 页面中提取内容/样板文件的论文。参见例如“使用浅文本特征的样板检测”并在 VideoLectures.net 上观看相应的视频。这篇论文应该让你对这个领域的最新技术有一个很好的概述。

干杯,

基督教

于 2010-11-21T18:55:50.363 回答
2

对于问题(1),我不确定。我以前没有这样做过。也许其他答案之一会有所帮助。

对于问题(2),摘要的自动创建不是一个发达的领域。它通常被称为“句子选择”,因为现在典型的方法是只选择整个句子。

对于问题 (3),从机器学习创建摘要的基本方法是:

  1. 创建现有摘要的语料库
  2. 以有用的方式注释摘要。例如,您可能想要指出是否选择了原文中的每个句子以及为什么(或为什么不选择)。
  3. 在语料库上训练某种分类器,然后用它对新文章中的句子进行分类。

我最喜欢的机器学习参考书是 Tom Mitchell 的机器学习。它列出了实现步骤 (3) 的多种方法。

对于问题(4),我确信有几篇论文,因为我的导师去年提到过,但我不知道从哪里开始,因为我不是该领域的专家。

于 2009-11-09T02:44:39.177 回答
0

我不知道它是如何工作的,但请查看 Readability。它完全符合您的要求。

于 2010-10-28T14:00:02.493 回答