0

我整天都在编程以实现我的目标。起初我尝试使用正则表达式 (Regex),但它接缝太复杂且效率低下,尽管它确实在一定程度上实现了我的目标。

这是我正在使用的网站的链接:

http://thewarezscene.org/forums/memberlist.php?start=20    

如果您查看页面的源代码(该站点目前似乎已关闭),您会注意到这个重复出现的链接标签:

<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a>

每个新页面都有一个注册到该站点的每个人的列表。以 20 递增。例如。开始=20,开始=40,开始=60。我知道如何从 HTML 页面获取所有元素,但是仅获取特定链接格式的链接文本的最佳解决方案是什么?

4

2 回答 2

0

使用HTML Agility Pack之类的 HTML 解析器来解析 HTML。

什么是 Html Agility Pack (HAP)?

这是一个敏捷的 HTML 解析器,它构建一个读/写 DOM 并支持普通的 XPATH 或 XSLT(实际上你不必了解 XPATH 或 XSLT 就可以使用它,不用担心......)。它是一个 .NET 代码库,允许您解析“网络之外”的 HTML 文件。解析器对“真实世界”格式错误的 HTML 非常宽容。对象模型与 System.Xml 的提议非常相似,但用于 HTML 文档(或流)。

正则表达式不太适合解析 HTML,如本答案所示

于 2012-08-09T18:15:07.560 回答
0

如果要获取 href 中存在参数“start”的所有元素

$("a[href*='start=']")
于 2012-08-09T18:23:08.943 回答