所以我们公司有大量不同部门的内部wiki站点,我正在寻找一种方法来统一它们。我们一直试图让每个人都使用同一个 wiki,但它永远不会奏效,他们一直想创建新的。作为替代方案,我想做的是抓取每个 wiki 并创建一个新的 wiki,其中包含来自每个来源的信息的组合。
在实现方面,我查看了 Nutch ( http://nutch.apache.org/ ) 和 ( http://scrapy.org/ ) 来进行网络爬取并使用 MediaWiki 作为前端。基本上我会使用爬虫作为前端来抓取每个 wiki,在中间编写一些代码(我正在考虑使用 Python 或 Perl)来理解它并创建新文章,使用它的 API 写入 MediaWiki。
不确定是否有人有类似的经验和更好的方法来做这件事,在我深入这个项目之前尝试做一些研发。