我正在努力用 Java 创建一个网络爬虫。爬虫访问网站,使用 JDBC 访问/存储数据库中的数据,并将文件存储在本地或云存储中。
作为爬取的一部分,我想记下爬虫的具体使用细节——
参数如——
Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via JDBC over that run of the crawler
Number of bytes of data stored+accessed in local machine (on which the crawler is running)
Number of bytes of data stored+accessed in cloud storage (like Amazon S3)
有没有什么快速的方法可以完成上述部分或全部?也许一些必须插入我的 java 应用程序的库?当爬虫执行某些操作(如访问网站、下载数据等)时,我是否必须在每个阶段单独记下所有上述参数?我不希望程序仅仅因为我想测量和跟踪上述参数而陷入困境。
我希望将爬虫用作桌面应用程序和网络应用程序,因此欢迎两者的解决方案......