html - 仅对特定域进行 Web 抓取

Question

我正在尝试制作一个网络浏览器，例如，从 Reuters.com 抓取新闻文章。我想得到标题和日期。我知道我最终只需要从每个地址中提取源代码，然后使用 JSoup 之类的东西解析 HTML。

我的问题是：我如何确保为 Reuters.com 上的每篇新闻文章都这样做？我怎么知道我已经访问了所有 reuters.com 地址？是否有任何 API 可以帮助我解决这个问题？

score 1 · Accepted Answer

您所指的是所谓的网络抓取加网络爬虫。您需要做的是访问符合某些条件的每个链接（抓取），然后抓取内容（抓取）。我从未使用过它们，但这里有两个用于这项工作的 java 框架

当然，在您收集了 url 之后，您将不得不使用 jsoup（或类似的）来解析内容

更新检查一下使用 crawler4j 发送请求中的 cookie？以获得更好的爬虫列表。Nutch 非常好，但如果您只想抓取一个站点，则非常复杂。crawler4j 非常简单，但我不知道它是否支持 cookie（如果这对你很重要，那就是一个交易破坏者）。

score 0 · Accepted Answer

试试这个网站http://scrape4me.com/

我能够为标题生成这个 url：http://scrape4me.com/api?url=http%3A%2F%2Fwww.reuters.com%2F&head=head&elm=&item[][DIV.topStory]=0&ch=ch

2 回答 2