nutch - Nutch 原始 Html 保存

Question

我正在尝试获取不同文件中已爬网页面的原始 html，命名为页面的 url。Nutch是否可以通过排除索引部分来将原始 html 页面保存在不同的文件中？

score 2 · Accepted Answer

没有直接的方法可以做到这一点。您将不得不做一些代码修改。看到这个和这个。

1 回答 1