java - 如何借助 RSS 提要从多个报纸网站上抓取报纸文章

Question

我必须做一些数据收集，即获得一个大流相对干净的语料库。语料库只是网页 (HTML) 的集合 - 每个页面对应于一条新闻文章，并带有相关信息，例如其出版日期、它出现的版本、它出现的部分等。

我要开发一个爬虫，可以并行爬取不同语言的报刊网站。让我们确定 2 种语言（英语和印地语）。编写一个爬虫从这些报纸的网站上抓取文章。我们必须收集它1个月

我们感兴趣的是从各种报纸的网站上收集大量的多语种新闻文章，因为它们发布在他们的网站上。

我被告知使用 RSS 提要之类的资源，而不是编写一个成熟的爬虫。这个想法是获得平行语料库——即不同语言的报纸文章，并且彼此同步。

建立爬虫后，我们必须在服务器上设置它来获取报纸流

请告诉我应该使用哪种工具和编程语言来构建这个爬虫。我知道 JAVA，所以我想最好在 Java 库上工作。我知道 RSS 提要是 XML 格式的

score 0 · Accepted Answer

我不确定到底是什么问题，但是是的，RSS 提要可能是要走的路（至少作为一个信号），是的，JAVA 有很好的工具来处理提要:)

1 回答 1