javascript - 如何创建一个抓取特定网页的 API

翻译自：https://stackoverflow.com/questions/15347909 2013-03-11T20:24:47.167

133 次

-1

我想设计/创建一个抓取网页上数据的 API（网页链接将作为输入提供）并以 JSON/xml 格式返回数据。

我正在寻求一些帮助，以便我可以开始寻找特定的方向。

1 回答 1

0

问题不是很清楚，但是如果您只想解析输入的 HTML 页面并从中获取外链，您可以执行以下操作

获取 HTML 页面作为输入流
使用 jtidy 或任何其他 HTML DOM 解析器创建一个 DOM。
一旦你有一个 DOM，得到所有
，href，元素，你将拥有所有的外链。

一般来说，当您说爬行时，它应该涉及多个页面，在一个图表中，您可以使用这些链接从一个页面移动到另一个页面。所以抓取特定页面是不正确的。

于 2013-03-15T12:23:37.427 回答