我正在尝试制作一个网络浏览器,例如,从 Reuters.com 抓取新闻文章。我想得到标题和日期。我知道我最终只需要从每个地址中提取源代码,然后使用 JSoup 之类的东西解析 HTML。
我的问题是:我如何确保为 Reuters.com 上的每篇新闻文章都这样做?我怎么知道我已经访问了所有 reuters.com 地址?是否有任何 API 可以帮助我解决这个问题?
我正在尝试制作一个网络浏览器,例如,从 Reuters.com 抓取新闻文章。我想得到标题和日期。我知道我最终只需要从每个地址中提取源代码,然后使用 JSoup 之类的东西解析 HTML。
我的问题是:我如何确保为 Reuters.com 上的每篇新闻文章都这样做?我怎么知道我已经访问了所有 reuters.com 地址?是否有任何 API 可以帮助我解决这个问题?
您所指的是所谓的网络抓取加网络爬虫。您需要做的是访问符合某些条件的每个链接(抓取),然后抓取内容(抓取)。我从未使用过它们,但这里有两个用于这项工作的 java 框架
当然,在您收集了 url 之后,您将不得不使用 jsoup(或类似的)来解析内容
更新 检查一下使用 crawler4j 发送请求中的 cookie?以获得更好的爬虫列表。Nutch 非常好,但如果您只想抓取一个站点,则非常复杂。crawler4j 非常简单,但我不知道它是否支持 cookie(如果这对你很重要,那就是一个交易破坏者)。
试试这个网站http://scrape4me.com/
我能够为标题生成这个 url:http://scrape4me.com/api?url=http%3A%2F%2Fwww.reuters.com%2F&head=head&elm=&item[][DIV.topStory]=0&ch=ch