0

给定一个 URL、第一个 URL 所在网页的 URL、网页的 DOM 以及网页上其余 URL 的列表,我如何可靠地确定 URL 是否在页面的页眉/页脚中或者如果两者都不在?

我正在使用 C#/.NET。

我知道没有解决方案是完美的,因为网页没有语义表达,也因为一些网站/页面专门混淆了他们的页面,但我想建立一些适用于 75% 网页的逻辑。

此外,是否还有其他有助于确定 URL 在页面中的位置的信息?

4

1 回答 1

0

我认为这里的创意任务是定义“页眉”和“页脚”,如“距顶部小于 x 个单位的内容”或“页面上的最后 200 个字符”。完成此操作后,您可以根据这些规则解析页面。

于 2010-07-21T04:04:46.233 回答