我想将一个网站索引到我的收藏中,基本上我想通过遍历所有帖子的 URL 来索引我的 Wordpress 网站。
例如
url=http://www.szirine.com/blog/2016/02/07/anne-dunn/
当然,理想情况下,我希望能够迭代地索引整个域或 URI,例如
url=http://www.szirine.com/
url=http://www.szirine.com/blog/
我想将一个网站索引到我的收藏中,基本上我想通过遍历所有帖子的 URL 来索引我的 Wordpress 网站。
例如
url=http://www.szirine.com/blog/2016/02/07/anne-dunn/
当然,理想情况下,我希望能够迭代地索引整个域或 URI,例如
url=http://www.szirine.com/
url=http://www.szirine.com/blog/
目前最好的解决方案是使用 Data Crawler,它在 Bluemix 的 Discovery Service 仪表板上可用。
自 v1.3.0 起的 Data Crawler没有通过 HTTP 或 HTTPS 抓取网站的本机方式。这可能会在未来版本的 Data Crawler 中发生变化。
不过,现在可以通过使用GNU wget(具有镜像模式和出色文档的广泛可用的 HTTP 客户端)来模拟 Web 爬网,在本地下载网站并使用 Data Crawler 的文件系统连接器将其上传到 Discovery Service。
要镜像网站,请使用wget --mirror http://www.example.com
. 有关更多信息,请阅读上面链接的文档。
如果您非常想要原生网络爬虫,请开一张票,以便我们了解对该功能的需求有多强。
注意:Windows 的 wget存在,但目前不是很有价值,因为 Data Crawler 从 v1.3.0 开始不支持 Windows。