我不是在谈论 HTML 标签,而是用于描述博客文章、youtube 视频或此站点上的问题的标签。
如果我只抓取一个网站,我只需使用 xpath 来提取标签,如果简单的话,甚至可以使用正则表达式。但我希望能够在我的 extract_tags() 函数中抛出任何网页并列出标签。
我可以想象使用一些简单的启发式方法,例如查找所有具有 id 或“标签”类的 HTML 元素等。但是,这非常脆弱,并且对于大量网页来说可能会失败。你们推荐什么方法来解决这个问题?
另外,我知道 Zemanta 和 Open Calais,它们都有办法猜测一段文本的标签,但这与提取真实人类已经选择的标签并不完全相同。但我仍然很想听听任何其他服务/API 来猜测文档中的标签。
编辑:为了清楚起见,一个已经适用的解决方案会很棒。但我猜没有开源软件已经做到了这一点,所以我真的只是想听听人们关于可能适用于大多数情况的方法。它不需要是完美的。
EDIT2:对于建议通常可行的通用解决方案的人是不可能的,并且我必须为每个网站/引擎编写自定义刮板,请考虑arc90 可读性工具。这个工具能够以惊人的准确性提取网络上任何给定文章的文章文本,使用我相信的某种启发式算法。我还没有深入研究他们的方法,但它适合一个书签,而且似乎并没有太多的参与。我知道提取一篇文章可能比提取标签更简单,但它应该作为一个例子来说明什么是可能的。