-3

我正在尝试从知识网络上的 75,000 篇文章中收集数据。所有数据都可以在每篇文章的网页上查看。作为编程的绝对初学者,我不确定除了手动之外如何完成。有没有我可以在 R 或任何其他平台上使用的代码来直接从网页中提取数据而无需下载所有文章?

4

1 回答 1

1

rvest是一个非常好的用于抓取一般网络数据的 R 包。它几乎可以做任何 python 库Beautiful SoupScrapy做的事情。

XML是另一个可用于网页抓取的软件包。

对于抓取 Twitter,您可以使用twitteRpackage 和 for Facebook Rfacebookpackage。

使用RTidyHTML包来纠正 HTML 中的错误。

于 2015-11-18T17:44:22.857 回答