0

第一个问题的链接可以在这里找到:

使用 VB.NET 检测网页中的更改

我对其进行了编辑,但被告知要作为新问题重新提交。但是使用上面的链接,您可以大致了解。继续下面的编辑。谢谢!

这个问题的新转折对不起。我有更多的时间来思考我们想要什么。所以...检测网页上的任何更改都会有点愚蠢,因为页面的时间相关元素会经常更改。相反,我想做的是能够检测页面中的文档。例如,如果该页面上有更改的 excel、word 文档或 pdf。所以,我会在这些文档上运行哈希,然后按某种时间表检查是否添加了新文档或是否修改了旧文档。有关如何检测页面上嵌入的文档并运行哈希的任何建议?再次感谢!

4

1 回答 1

0

我将从一条元建议开始:当问的问题的答案可能取决于 .NET 本身,或者更普遍地编程时,使用这样说的标签,不要使用像这样的标签VB.NET,因为大多数.NET 社区使用 C#,他们通常不会看到它。

关于您的实际问题,具体情况将取决于您需要检查的确切内容,但总的来说,听起来您需要在页面内定义感兴趣的区域,例如由 css 选择器标识。因此,假设您正在观看的页面有一个小文档列表,并且该列表的编码如下:

<p>New this week!</p>
<ul class="new-docs">
  <li><a href="...">Some Doc</a></li>
  <li><a href="...">Some Other Doc</a></li>
</ul>

因此,您编写了一些代码来下载此页面并使用选择器提取元素,ul.new-docs然后通过在整个 HTML 块上使用哈希/校验和,或者通过显式记录每个子项并比较新的与旧名单。

下载页面后,您可能会发现此线程有助于通过选择器实际提取给定的 HTML 位。

于 2014-01-20T20:09:27.813 回答