提取对不同的人可能意味着不同的事情。能够处理所有损坏的 HTML 是一回事,Beautiful Soup 显然是该部门的赢家。但 BS 不会告诉你什么是粗粮,什么是肉。
从计算语言学家的角度考虑内容提取时,事情看起来不同(而且丑陋)。在分析页面时,我只对页面的特定内容感兴趣,减去所有导航/广告/等。粗鲁。你不能开始做有趣的事情——共现分析、短语发现、加权属性向量生成等——直到你摆脱了麻烦。
OP 引用的第一篇论文表明这就是他们试图实现的目标——分析一个站点,确定整体结构,然后减去它,瞧!你只有肉——但他们发现这比他们想象的要难。他们从改进的可访问性角度解决了这个问题,而我是一个早期的搜索引擎专家,但我们都得出了相同的结论:
将残羹剩饭与肉分开很难。并且(在问题的字里行间阅读)即使删除了杂物,如果没有仔细应用语义标记,也很难确定文章的“作者意图”。从 citeseer 之类的网站(以非常高的信噪比干净且可预测地布局)获取肉比处理随机 Web 内容要容易2 或 3 个数量级。
顺便说一句,如果您正在处理较长的文档,您可能会对Marti Hearst(现为加州大学伯克利分校的教授)所做的工作特别感兴趣。她的博士论文和其他关于在大型文档中进行子主题发现的论文让我对在较小的文档中做类似的事情有了很多见解(令人惊讶的是,这可能更难处理)。但你只能在摆脱杂物之后才能做到这一点。
对于少数可能感兴趣的人,这里有一些背景故事(可能是题外话,但我今晚有那种心情):
在 80 年代和 90 年代,我们的客户大多是政府机构,他们的眼光超出了预算,他们的梦想让迪士尼乐园看起来很单调。他们正在收集他们能拿到的所有东西,然后去寻找一种能以某种方式(巨大的手波)提取文件“意义”的灵丹妙药技术。对。他们找到我们是因为我们是 1986 年做“内容相似性搜索”的一家奇怪的小公司。我们给了他们几个演示(真实的,不是伪造的),这让他们吓坏了。
我们已经知道的一件事(他们花了很长时间才相信我们)是每个系列都是不同的,需要它自己的特殊扫描仪来处理这些差异。例如,如果你所做的只是咀嚼直接的报纸故事,那么生活就很容易了。标题主要告诉你一些有趣的事情,故事是用金字塔风格写的——第一段或第二段有谁/什么/何地/何时的内容,然后接下来的段落对此进行了扩展。就像我说的,这很容易。
杂志文章怎么样?哦,上帝,不要让我开始!标题几乎总是毫无意义,结构从一个杂志到下一个,甚至从一个杂志的一个部分到下一个。拿起一份《连线》和一份《大西洋月刊》。查看一篇主要文章,并尝试找出一篇有意义的段落摘要来概括文章的内容。现在试着描述一个程序如何完成同样的事情。同一组规则是否适用于所有文章?甚至来自同一杂志的文章?不,他们没有。
抱歉,这听起来像个脾气暴躁的人,但这个问题真的很难。
奇怪的是,谷歌取得如此成功的一个重要原因(从搜索引擎的角度来看)是他们非常重视来自另一个站点的链接中和周围的文字。该链接文本代表一种由其链接到的站点/页面的人员完成的小型摘要,这正是您在搜索时想要的。它适用于几乎所有类型/布局样式的信息。这是一个非常出色的洞察力,我希望我自己也有过。但这对我的客户没有任何好处,因为从昨晚的莫斯科电视节目表中没有链接到他们捕获的一些随机电传消息,或者与埃及报纸的某些 OCR 版本很差的链接。
/mini-rant-and-trip-down-memory-lane