问题标签 [lucene]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2072 浏览

search - Lucene.Net 是否适合作为内容频繁变化的搜索引擎?

Lucene.Net 是否适合作为内容频繁变化的搜索引擎?

或者更具体地说,任何人都可以就 lucene.net 索引的更新速度给出主观意见。任何其他搜索频繁变化的内容的方法都会很棒。

我们正在开发一个论坛。论坛帖子将经常添加到论坛存储库中。我们认为我们需要将这些帖子快速添加到 lucene 索引中(<0.5 秒),以便可以搜索。最初在存储库中将有大约 5E6 个帖子。假设搜索引擎在非异国服务器上运行(我知道这很模糊!)。

其他关于解决搜索频繁变化的内容问题的建议表示赞赏。论坛帖子需要在可变数量的命名标签上进行搜索(标签名称和值必须匹配)。基于 SQL 的方法(基于 Toxi 模式)并没有给我们想要的性能。

0 投票
7 回答
6672 浏览

lucene - 对与 Lucene 或 Solr 一起使用的爬虫工具的建议?

对 HTML 和 XML 文档(本地或基于 Web)使用并在 Lucene / Solr 解决方案空间中运行良好的爬虫(蜘蛛)是什么?可以是基于 Java 的,但不是必须的。

0 投票
2 回答
3331 浏览

lucene - Lucene 查询解析器

Lucene QueryParser.parse(string) 是否仍然有效?如果不推荐使用,新语法是什么?

查询查询 = QueryParser.parse("Ophelia");

谢谢塔季扬娜

0 投票
1 回答
5027 浏览

.net - 如何使用 Lucene.NET 索引和查找数字?

我已经使用Lucene.NET(2.0 版)实现了对网站的全文搜索。索引和搜索效果很好,但我有一个问题。如果我查找数字(电话号码、产品编号等)作为搜索词,我不会得到任何结果文档。

我正在使用 Lucene.Net.Analysis.SimpleAnalyzer 类。我想我必须更改 Analyzer 和/或 Tokenizer。

有什么建议吗?

谢谢!

0 投票
4 回答
2644 浏览

lucene - 是否有一套从关系数据库构建 Lucene 索引的最佳实践?

我正在研究使用Lucene和/或Solr在 RDBMS 驱动的 Web 应用程序中提供搜索。对我来说不幸的是,我浏览的所有文档都涉及如何从索引中获取数据。我更关心如何建立一个有用的索引。这样做有什么“最佳实践”吗?

0 投票
2 回答
4167 浏览

lucene - 在 Lucene.net 中使用日期范围

我了解 Lucene.net 如何用于文本索引。我能否根据给定的日期范围有效地搜索文档?或者 Lucene.net 会只使用文本匹配来匹配日期吗?

0 投票
2 回答
1747 浏览

database - 比较:数据库全文搜索到搜索引擎(Lucene)

从 stackoveflow.com 的角度来看(由 2-3 名工程师组成的团队构建一个旨在扩展的网站项目),在开发过程的早期花费精力来构建基于 Lucene/Autonomy 的搜索是否有意义……而不是基于数据库全文搜索。

优点/缺点:
对于像 nutch 或自治这样的成熟 Lucene 实现,在后期迁移到 Lucene(这是不可避免的)的成本可以忽略不计。
大量添加额外的索引服务器(比如使用 nutch)来维护不断增长的搜索索引相对容易。
对于 Lucene 实现,我很可能需要一个额外的服务器来维护内存索引(在扩展过程的早期阶段)。

0 投票
3 回答
713 浏览

mysql - 高效过滤/搜索

我们有一个管理内容页面的托管应用程序。每个页面可以有许多自定义字段,以及一些标准字段(时间戳、用户名、用户电子邮件等)。

可能有数百个不同的站点使用该系统——处理过滤/搜索的有效方法是什么?想象一个您想要缩小范围的网格视图。您可以过滤特定字段(用户 ID、日期),也可以输入全文搜索。

例如,“所有由 userid 10 开始的页面”将是一个针对 MySQL 数据库的非常快速的查询。但是像“由用户 ID 为 10 且匹配 [某些搜索查询] 的用户启动的所有页面”之类的内容会影响数据库,因此它适用于 Lucene 等搜索引擎。

基本上我想知道其他大型网站是如何做这种事情的。他们是否 100% 使用搜索引擎进行所有类型的过滤?他们是否将数据库查询与搜索引擎混合在一起?

如果我们使用搜索引擎,那么新/更新对象出现在搜索索引中的延迟时间就会出现问题。也就是说,我读过立即更新索引并不聪明,而是分批进行。即使这意味着每 5 分钟一次,当用户查看一个简单的页面列表(例如“类别:5”的搜索查询)时,当他们最近添加的页面没有立即列出时,用户也会感到困惑。

我们正在使用 MySQL,并且一直在密切关注 Lucene 进行搜索。还有其他我不知道的技术吗?

我的想法是提供一个简单的过滤页面,它使用 MySQL 过滤基本字段。然后提供一个单独的全文搜索页面,该页面将显示类似于 Google 的结果。这是唯一的方法吗?

0 投票
4 回答
1780 浏览

lucene - Lucene.Net 和 Geosearch - 它在某个地方吗?

我发现了一篇关于 Lucene 和地理搜索的有趣文章:

http://sujitpal.blogspot.com/2008/02/spatial-search-with-lucene.html

是否存在我无法找到的等效 .NET 实现,或者我是否必须在他的示例中重新编写 Java 代码以适应 .NET Framework?

0 投票
1 回答
3243 浏览

php - 使用 Zend Lucene 搜索 PDF 文件

有没有办法使用 Zend_Search_Lucene 来搜索/索引 PDF 文档?