ibm-cloud - 我可以将 URL 类型的文档“添加到我的收藏”吗？

Question

我想将一个网站索引到我的收藏中，基本上我想通过遍历所有帖子的 URL 来索引我的 Wordpress 网站。

例如

url=http://www.szirine.com/blog/2016/02/07/anne-dunn/

当然，理想情况下，我希望能够迭代地索引整个域或 URI，例如

url=http://www.szirine.com/
url=http://www.szirine.com/blog/

score 2 · Accepted Answer

目前最好的解决方案是使用 Data Crawler，它在 Bluemix 的 Discovery Service 仪表板上可用。

自 v1.3.0 起的 Data Crawler没有通过 HTTP 或 HTTPS 抓取网站的本机方式。这可能会在未来版本的 Data Crawler 中发生变化。

不过，现在可以通过使用GNU wget（具有镜像模式和出色文档的广泛可用的 HTTP 客户端）来模拟 Web 爬网，在本地下载网站并使用 Data Crawler 的文件系统连接器将其上传到 Discovery Service。

要镜像网站，请使用wget --mirror http://www.example.com. 有关更多信息，请阅读上面链接的文档。

如果您非常想要原生网络爬虫，请开一张票，以便我们了解对该功能的需求有多强。

注意：Windows 的 wget存在，但目前不是很有价值，因为 Data Crawler 从 v1.3.0 开始不支持 Windows。

1 回答 1