-1

我想设计/创建一个抓取网页上数据的 API(网页链接将作为输入提供)并以 JSON/xml 格式返回数据。

我正在寻求一些帮助,以便我可以开始寻找特定的方向。

4

1 回答 1

0

问题不是很清楚,但是如果您只想解析输入的 HTML 页面并从中获取外链,您可以执行以下操作

  1. 获取 HTML 页面作为输入流
  2. 使用 jtidy 或任何其他 HTML DOM 解析器创建一个 DOM。
  3. 一旦你有一个 DOM,得到所有
  4. ,href,元素,你将拥有所有的外链。

一般来说,当您说爬行时,它应该涉及多个页面,在一个图表中,您可以使用这些链接从一个页面移动到另一个页面。所以抓取特定页面是不正确的。

于 2013-03-15T12:23:37.427 回答