0

我有一个用Perl编写的 Web 应用程序。我的搜索要求是索引可以包含文件类型的文件系统/动态文档,即;HTML、MS Office、PDF 文档等,然后执行全文搜索。我已经调查过Apache Solr可以很好地处理示例数据。现在我了解了Apache Lucy,并想知道这是否适合我的基于 Perl 的应用程序。Apache Lucy的担忧之一是 2014 年 12 月之后CPAN没有更新。不确定这是否得到积极维护,尤其是与Lucene 5.3集成的进展情况。我需要以下几点建议:

谢谢,

4

1 回答 1

2

好的,我将分享一些我使用 Lucy 的经验。

当 Lucy 构建索引时,它会在您声明的目录中创建许多索引文件。只有一个用户可以读取、写入和删除索引。如果要与多个用户共享索引,则需要应用文件锁定。当一个用户访问索引时,其他用户将被锁定,直到当前访问索引的用户完成。当有大量用户想要访问索引时,这可能是一个问题。

Lucy 不支持 Integer 类型,因此如果您使用数字进行查询,Lucy 会将其视为字符串。这也意味着 Lucy 没有数字查询函数运算符,如大于、小于等。也无法处理日期和时间。另一方面,Solr 允许您使用整数和所有可用的带有整数、日期、时间等的查询函数。

Lucy 几乎没有在线社区支持,更不用说缺乏文档了。另一方面,Solr 是最流行的基于 Lucene 的企业搜索引擎。它有大量的社区支持、非常全面的文档和教程。

solr 的唯一问题是安全性。当您使用 solr 创建索引时,它会加载到共享租赁服务器上。这意味着任何人都可以访问您的数据。保护您的数据取决于您。好消息是有一些插件可以让你这样做。

在我看来,如果您主要将 Lucy 用于文本搜索并且您的网站流量不多,那么 Lucy 是一个很好、快速的小型搜索引擎。

于 2015-09-20T13:29:02.427 回答