5

基本要求:

  • 应该能够索引 MediaWiki、Confluence、Sharepoint、GitHub:Enterprise、Askbot 等内容
  • 应该对重复数据删除结果相当聪明(Confluence 搜索如此痛苦的原因之一)。
  • 绝对应该包含启发式方法,例如链接到文档的页面数量,搜索词是否在文档标题中等。如果用户有办法降低特定结果​​的排名,那可能是一个奖励。
  • 应该有些可调(例如,更喜欢 Confluence 而不是 Sharepoint,将某些路径列入黑名单)。

是否有现成的产品可以做到以上几点?自由和开源项目?是否有 FOSS 项目可以提供上述基础知识并且易于扩展或构建前端?

4

3 回答 3

4

你可以试试Apache Solr,它是一个很棒的工具。

根据网站:

Solr 是 Apache Lucene 项目中流行的、超快的开源企业搜索平台。它的主要功能包括强大的全文搜索、命中突出显示、分面搜索、近实时索引、动态集群、数据库集成、富文档(例如,Word、PDF)处理和地理空间搜索。Solr 高度可靠、可扩展和容错,提供分布式索引、复制和负载平衡查询、自动故障转移和恢复、集中配置等。Solr 为许多世界上最大的互联网站点的搜索和导航功能提供支持。

于 2013-08-22T14:07:36.247 回答
1

您可以尝试捆绑版本的 Solr 和其他工具,例如OpenESPConstellio。预计会花一些时间调整源和导入。与 OpenESP 捆绑在一起的ManifoldCF是一个开源连接器/爬虫框架,用于将连接器插入到您所描述的各种系统中,并且有几个连接器是开箱即用的。

于 2013-09-24T22:43:39.137 回答
-1

你可以试试 Moogle。它是开源的,可以在带有 IIS 的 Windows 中轻松使用。只是看起来像谷歌,所以你对它有点熟悉。试试http://techstuff.smsjuju.com/intranet-search-engine/

于 2014-04-06T16:51:58.233 回答