0

例如,我想从类过滤的 HTML 中获取数据

<p class="job_list_first_line">

在那个类中,我想获取一些数据,例如

<a href="adasdasdasd.html" title="blablabla"> some value text text text < /a >

标签。

那可能吗?请注意,我有兴趣检索我无法控制的网页的数据。

提前感谢大家,狼。

4

2 回答 2

0

您可以下载整个 html 页面并借助字符串方法和正则表达式对其进行过滤。这里有很多线程。

于 2012-04-06T09:57:20.593 回答
0

也许JSoup可以帮助你?这是一个 HTML 解析器:

jsoup 实现了 WHATWG HTML5 规范,并将 HTML 解析为与现代浏览器相同的 DOM。

  • 从 URL、文件或字符串中抓取和解析 HTML
  • 使用 DOM 遍历或 CSS 选择器查找和提取数据
  • 操作 HTML 元素、属性和文本
  • 根据安全白名单清理用户提交的内容,以防止 XSS 攻击
  • 输出整洁的 HTML

JSoup 链接

于 2012-04-06T09:58:34.353 回答