0

我正在创建一个用于从多个 URL 中抓取链接的工具。我想存储这些信息,然后测试抓取的链接的状态。

我预计必须测试很多链接,大约 60,000 个。所以我遇到的问题是决定如何存储要测试的链接。

我正在考虑为要抓取的 URL 创建文本文件。我必须为要抓取的 URL 创建大约 40 个文本文件(我要抓取的 URL 是相同的 URL,只是区域化了)。

  • 创建大量文本文件会导致性能问题吗?
  • 我最好将 URL 存储在一个数组中,然后将数组写入文本文件,还是我应该只是将 URL 写入文本文件?或者,还有更好的方法?
  • 有没有比存储在文本文件中更好的方法?(我真的不想使用数据库,但如果有一个很好的案例,我会被说服)
4

1 回答 1

1

恕我直言,最简单的方法是使用序列化来保存您的信息。例如,Map<String, Set<String>>url 的序列化。多个文件也应该可以工作,不会对性能产生任何严重影响。但实施时间稍长

另一种方法 - 在mongolab上注册并使用免费帐户。(不是广告,我就是喜欢这个服务)不需要安装任何东西,下载mongo驱动就可以了

于 2012-04-20T12:53:40.183 回答