我正在做一个 NLP 项目,要求我下载相当多的视频游戏评论——每个网站大约 10,000 条。因此,我将编写一个程序,访问每个 URL 并提取每个页面的评论部分以及一些额外的元数据。
我正在使用 Java,并计划只打开一个 HttpURLConnection 并通过输入流读取文本。然后,关闭连接并打开下一个。
我的问题是这样的:
1) 假设这是一个中小流量的站点:通常,他们每秒收到来自普通用户的大约 1000 个请求。我的程序是否可能会对他们的系统造成过度的压力,从而影响其他人的用户体验?
2)这些连接一个接一个地出现是某种恶意攻击吗?
我是偏执狂,还是这是一个问题?有没有更好的方法来获取这些数据?我要去几个网站,所以与网站管理员单独合作很不方便,而且可能是不可能的。