0

我正在尝试识别给定 URL 的标签。

标签规范有什么约定吗?任何基于常见用法的启发式方法?

我指的是对其内容进行分类的站点内标签。例如,在每篇 TC 文章的末尾,您都可以找到一个“标签”部分。大多数内容网站也是如此。

4

1 回答 1

1

我希望我理解你的问题。我相信你指的是像'html''regex'之类的标签,就像你问题的结尾一样。

理论上,您可以假设页面使用rel="xyz"for 标签链接。Stackoverflow 做到了,我知道的其他一些网站也做到了。

http://microformats.org/wiki/rel-tag

但我认为它不是很可靠。由于没有“必须”,因此无法保证此类标签。

无论如何,如果您想尝试并解析内容,我不建议您从头开始。例如, Jsoup在一个非常漂亮的库中提供了很多功能。您甚至可以找到具有特定属性的链接标签。

于 2012-07-28T16:41:08.567 回答