我正在爬取新闻网站,想提取新闻标题、新闻摘要(第一段)等
我插入了 webkit 解析器代码,以轻松地将网页作为树导航。为了消除导航和其他非新闻内容,我采用了文章的文本版本(减去 html 标签,webkit 提供了相同的 api)。然后我运行 diff 算法比较来自同一网站的各种文章的文本,这导致相似的文本被消除。这给了我内容减去常见的导航内容等。
尽管采用了上述方法,但我的最终文本中仍然有些垃圾。这会导致提取不正确的新闻摘要。错误率为 10 篇文章中有 5 篇,即 50%。错误如
你可以吗
建议提取纯内容的替代策略,
学习自然语言处理是否有助于从这些文章中提取正确的摘要?
您将如何解决上述问题?
这些研究论文是否相同?
问候
安库尔古普塔