.net - 从 HTML 源获取特定信息

Question

我整天都在编程以实现我的目标。起初我尝试使用正则表达式 (Regex)，但它接缝太复杂且效率低下，尽管它确实在一定程度上实现了我的目标。

这是我正在使用的网站的链接：

http://thewarezscene.org/forums/memberlist.php?start=20

如果您查看页面的源代码（该站点目前似乎已关闭），您会注意到这个重复出现的链接标签：

<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a>

每个新页面都有一个注册到该站点的每个人的列表。以 20 递增。例如。开始=20，开始=40，开始=60。我知道如何从 HTML 页面获取所有元素，但是仅获取特定链接格式的链接文本的最佳解决方案是什么？

score 0 · Accepted Answer

使用HTML Agility Pack之类的 HTML 解析器来解析 HTML。

什么是 Html Agility Pack (HAP)？

这是一个敏捷的 HTML 解析器，它构建一个读/写 DOM 并支持普通的 XPATH 或 XSLT（实际上你不必了解 XPATH 或 XSLT 就可以使用它，不用担心......）。它是一个 .NET 代码库，允许您解析“网络之外”的 HTML 文件。解析器对“真实世界”格式错误的 HTML 非常宽容。对象模型与 System.Xml 的提议非常相似，但用于 HTML 文档（或流）。

正则表达式不太适合解析 HTML，如本答案所示。

score 0 · Accepted Answer

0

如果要获取 href 中存在参数“start”的所有元素

$("a[href*='start=']")

于 2012-08-09T18:23:08.943 回答

.net - 从 HTML 源获取特定信息

2 回答 2

Related

Reference