我正在创建一个用于从多个 URL 中抓取链接的工具。我想存储这些信息,然后测试抓取的链接的状态。
我预计必须测试很多链接,大约 60,000 个。所以我遇到的问题是决定如何存储要测试的链接。
我正在考虑为要抓取的 URL 创建文本文件。我必须为要抓取的 URL 创建大约 40 个文本文件(我要抓取的 URL 是相同的 URL,只是区域化了)。
- 创建大量文本文件会导致性能问题吗?
- 我最好将 URL 存储在一个数组中,然后将数组写入文本文件,还是我应该只是将 URL 写入文本文件?或者,还有更好的方法?
- 有没有比存储在文本文件中更好的方法?(我真的不想使用数据库,但如果有一个很好的案例,我会被说服)