Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试获取不同文件中已爬网页面的原始 html,命名为页面的 url。Nutch是否可以通过排除索引部分来将原始 html 页面保存在不同的文件中?
没有直接的方法可以做到这一点。您将不得不做一些代码修改。看到这个和这个。