1

好吧,这个问题听起来可能很愚蠢,但我做了几个小时的研究来找到解决方案,但如果有人知道,我做不到,那太好了!!!

我成功读取了 arc 文件(来自 commoncrawl 数据集)。随着arcHeader.getUrl();我得到所有的网址。但是我不明白,是否存在来自该特定 URL 的“传出”链接,如果存在,如何获取这些链接?

[PS] 通过“传出”,我的意思是,在整个页面中,它包含哪个 URL,例如广告、内容等。该 commoncrawl arc 文件是否包含,如果是,如何获取这些?

提前致谢!

编辑:我解决了这个问题,阅读了 HTML 内容并得到了所有!没那么难!

4

0 回答 0