-1

我必须做一些数据收集,即获得一个大流相对干净的语料库。语料库只是网页 (HTML) 的集合 - 每个页面对应于一条新闻文章,并带有相关信息,例如其出版日期、它出现的版本、它出现的部分等。

我要开发一个爬虫,可以并行爬取不同语言的报刊网站。让我们确定 2 种语言(英语和印地语)。编写一个爬虫从这些报纸的网站上抓取文章。我们必须收集它1个月

我们感兴趣的是从各种报纸的网站上收集大量的多语种新闻文章,因为它们发布在他们的网站上。

我被告知使用 RSS 提要之类的资源,而不是编写一个成熟的爬虫。这个想法是获得平行语料库——即不同语言的报纸文章,并且彼此同步。

建立爬虫后,我们必须在服务器上设置它来获取报纸流

请告诉我应该使用哪种工具和编程语言来构建这个爬虫。我知道 JAVA,所以我想最好在 Java 库上工作。我知道 RSS 提要是 XML 格式的

4

1 回答 1

0

我不确定到底是什么问题,但是是的,RSS 提要可能是要走的路(至少作为一个信号),是的,JAVA 有很好的工具来处理提要:)

于 2013-07-10T12:13:49.693 回答