问题标签 [solr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lucene - 对与 Lucene 或 Solr 一起使用的爬虫工具的建议?
对 HTML 和 XML 文档(本地或基于 Web)使用并在 Lucene / Solr 解决方案空间中运行良好的爬虫(蜘蛛)是什么?可以是基于 Java 的,但不是必须的。
solr - Xapian 的爬虫/解析器
我想实现一个搜索引擎,它应该抓取一组网站,从页面中提取特定信息并创建该特定信息的全文索引。
在我看来,Xapian 可能是搜索引擎库的不错选择。
爬虫/解析器与 Xapian 集成的选项有哪些?
在与开源爬虫/解析器集成时,Solr 会比 Xapian 更好吗?
regex - Solr:使用正则表达式分段器提取段落
我将此消息发布到 Solr 邮件列表,但我也在此处尝试,以防附近有 Solr 专家潜伏。
我正在尝试使用正则表达式分段器并且很难获得我想要的结果。我正在尝试获取以单词字符开头并以标点符号结尾的片段,但由于某种原因,返回给我的片段似乎非常不灵活,尽管我已经提供了很大的斜率。以下是我正在使用的相关参数,也许有人可以帮助指出我哪里出错了:
这应该匹配 400-600 个字符,以单词字符开头并以 .!? 之一结尾。以下是典型结果的示例:
. 检查这些图片。周四,九只熊猫幼崽在中国西南地区首次展出。他们还不到一岁。他们最近才停止哺乳。中国中部山区森林里只剩下1600只这些家伙,中国的繁育设施和动物园里还有120只。他们大约有 20 岁,住在中国以外的动物园里。它们几乎完全存在于竹子上。他们可以活到30岁。这些小家伙最终会变得更大。他们会成长
如您所见,它以句点开头并以单词字符结尾!就好像片段只是按原样出现,而正则表达式根本没有做任何事情,但是当我使用间隙片段器时结果会有所不同。在上面的结果中,我看不出有什么理由不应该去掉前面的句号和最后两个词,在 slop 和正则表达式模式中有足够的空间。请帮我弄清楚我做错了什么......
非常感谢,
标记
solr - 有没有一种简单的方法可以让 Solr 根据随请求提交的一组凭据引用不同的索引?
我想要一个Solr实例,受某种身份验证保护,根据用于该身份验证的凭据对不同的索引进行操作。身份验证的类型很灵活,但如果可能的话,我更喜欢使用开放标准(现有的或新兴的)。
我试图解决的核心问题是应用程序的不同用户(可能)可以访问存储在其中的不同数据,并且用户不应该能够搜索不可访问的数据。为每个用户建立索引似乎是保证一个用户看不到禁止数据的最简单方法。有没有更简单的方法?一个可以避免 Solr 需要一种将用户映射到索引的方法?
谢谢。
ruby-on-rails - 使用模型作为搜索查询时,acts_as_solr 返回数据库中的所有行
在我们的应用程序中,我们使用acts_as_solr 进行搜索。除了使用模型名称作为搜索查询会返回表中的每一行之外,一切似乎都运行得很顺利。
例如,假设我们有一个 users 表。我们在模型中指定acts_as_solr 来搜索字段名、姓和句柄acts_as_solr :fields => [:handle, :lname, :fname]。当您使用“用户”作为搜索词时,它会返回系统中的每个用户,或数据库中的每一行作为结果。
有没有其他人遇到过这个?
solr - Solr 奇怪的搜索行为
我有很多索引的 solr 文档,其中包含字段
但是当我用查询搜索时
它返回零结果。搜索查询可与其他类似的 uri (nntp://msnews.microsoft.com/microsoft.public.windows.windowsxp.general) 一起使用。
我在这里想念什么?
tomcat - Solr 容器
什么是 SOLR 更好的容器:Tomcat 或 Jetty
drupal - 通过 Drupal 进行查询时,Apache Solr 结果不同——为什么?
我正在尝试使用Drupal为Apache Solr创建自定义搜索界面,但结果出现了一些奇怪的问题。
当我从 Solr 的内置 Web 界面运行它时,我有相同的查询产生 8 个命中,而当我通过 Drupal 运行它时产生 0 个命中。谁能解释为什么?
以下是查询,均取自 Solr 日志:
Solr 后端
INFO: [] webapp=/solr path=/select params={wt=standard&rows=10&start=0&explainOther=&hl.fl=&indent=on&q=ss_cck_field_goal:sell+AND+ss_cck_field_type:(own+OR+coop+OR+house+OR+commercial)+AND+is_price:[10000+TO+5560000]&fl=*,score&qt=standard&version=2.2} hits=8 status=0 QTime=2
Drupal ApacheSolr 模块
09-Mar-2009 15:37:31 org.apache.solr.core.SolrCore execute INFO: [] webapp=/solr path=/select params={wt=json&rows=10&json.nl=map&start=0&q=ss_cck_field_goal:sell+AND+ss_cck_field_type:(own+OR+coop+OR+house+OR+commercial)+AND+is_price:[10000+TO+5560000]&version=1.2} hits=0 status=0 QTime=9
唯一在我眼中突出的是version=1.2
参数,但我已经尝试删除它,但这并没有改变行为。
经过大量调整后,我设法向 Drupal 模块发送或多或少相同的参数,但它仍然给出 0 个结果:
09-Mar-2009 17:47:43 org.apache.solr.core.SolrCore execute INFO: [] webapp=/solr path=/select params={wt=standard&rows=10&start=0&q=ss_cck_field_goal:sell+AND+ss_cck_field_type:(own+OR+coop+OR+house+OR+commercial)+AND+is_price:[10000+TO+5560000]} hits=0 status=0 QTime=13
谁能解释一下?