问题标签 [lucidworks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
189 浏览

regex - 将 LucidWorks 包含路径配置为仅抓取某些文件类型

我正在尝试将 LucidWorks Web 数据源配置为仅索引某些文件类型。但是,当我将包含路径设置.*\.html为仅抓取 .html 文件(作为简化示例)时,它最终只会索引顶级文件夹。 抓取深度设置为-1,当我将包含路径留空时,它会按预期抓取整个子树。

我查看了他们有关创建 Web 数据源使用正则表达式的文档,但找不到不起作用的原因.*\.html,因为.*应该匹配任何字符。

0 投票
2 回答
295 浏览

alfresco - Lucidworks CMIS 连接器/数据源?

我想将 Lucidworks 2.5 企业搜索与 CMIS 兼容存储库集成为露天或文档库,但我看不到任何数据源/连接器。但在 Lucidworks 网站 @ http://www.lucidworks.com/about-us/press-releases/application-developers-worldwide-endorse-lucidworks-20-open-source-search-platform-creating我可以看到 CMIS提到作为 OOTB 连接器。

借助新的 LucidWorks 开放连接器框架,SHI 将提供用于将 LucidWorks 2.0 与 Microsoft Exchange 和 IBM Lotus Notes 以及具有 CMIS 功能的存储库(如 Alfresco ECM 和 Documentum)集成的连接器。这些连接器可帮助企业从存储在此类系统中的数据中提取有价值的业务洞察力。Exchange 连接器将于 2011 年底推出,Lotus Notes/CMIS 连接器将于 2012 年初推出。

任何人都可以帮助我实现它吗?OOTB 是在其他地方可用还是不可用并且需要创建为自定义组件?

问候。

0 投票
1 回答
270 浏览

php - 使用搜索输出字符串打开本地网络文件

多年来,我一直在尝试使用所有类型的“file、file_get_contents、fopen、opendir 等”来完成我正在尝试做的事情,但对我来说却无能为力,遗憾的是,这超出了我的理解范围。但我在这里学习。

我想做的事?我与 LucidWorks 合作,我建立了一个 Intranet 搜索,它搜索给定“C://example/example/...”的特定路径,并对所有文件进行全文搜索。在我的 Intranet 网站上搜索的输出很简单:

  • 文件名
  • 带有突出显示的关键字的正文标题
  • 文件路径

现在,这还不够,我懒惰的同伴希望能够单击文档标题(它确实有一个完整的路径到它后面的文档,只是为了更好地描绘它“C:/Ex/ex/ ex/docs/sap/text.txt(或任何其他终止))并在本地打开它。

这是我认为与我要完成的内容相关的代码部分。我内置的“解决方案”不起作用,但它可能会让您了解我在这里要完成的工作。

上面还有一些代码,但与所提出的问题无关。

所以你们去吧伙计们,我希望得到帮助,并能够学习新的东西:)

0 投票
1 回答
273 浏览

xml - 在解析“Solr XML”文件以索引结果时,如何使 Solr 跟随链接?

有一个包含成千上万个 PDF 文件的 Web 可访问文件系统,我需要 Solr(使用 Lucidworks)对其进行索引。

我有一个 XML 文件,其中包含与每个文件对应的数据。XML 包含文件系统中相应 PDF 的 ID、一些简单的元数据和 URL。

目前,我能够以 Solr 读取它并索引我需要的所有元数据的方式格式化 XML,包括 PDF 的 URL。

我希望 Solr 在解析文件时实际上遵循 URL 并索引引用的 PDF 数据以及 XML 提供的元数据。这可能吗?

0 投票
1 回答
860 浏览

solr - Solr - 按组聚合词频

假设我在 Solr(最新)中抓取并索引了以下一组分组网站:

我正在寻找一个结果集,它将为我提供每个单独域中的词频,以及该搜索词的聚合词频(按 domainGroup 聚合)

对此进行研究使我想到了 3 种可能性:

  1. 可以用 Facet Pivot 完成
  2. 可以用 Facet + 词频向量来完成
  3. 无法完成

1 和 2 是不同的,我不确定哪个对我有用,或者更糟糕的是,通过“选项”3 也不能。

抱歉,如果不清楚。我正在尝试检索“搜索词”的频率,但我还需要 domainGroup 字段聚合的频率。换句话说,我需要在一个请求中搜索“搜索词”的所有域,并不仅在单个域(默认)中检索“搜索词”的频率,还包括所有域组的聚合频率(因此总和同一域组下所有域中的词频)。

0 投票
1 回答
172 浏览

bigdata - 将单个键映射到多个值的序列文件

我正在尝试对将馈送到 LucidWorks 大数据进行索引的数据进行一些预处理。LWBD 以 Sequencefile 文件的形式接受 SolrXML。我想创建一个 Pig 脚本,它将获取目录中的所有 SolrXML 文件并以格式输出它们

Pig 的本机PigStorage()加载函数可以自动创建一个列,其中包含从中提取数据的文件的名称,理想情况下应该如下所示:

但是,PigStorage() 也自动使用 '\n' 作为行分隔符,所以我最终得到的是一个看起来像这样的包:

我相信你明白了。我的问题是,如果我要将这个包写入 SequenceFile,其他应用程序将如何读取它?可以合并为

,由我提供给它的应用程序的默认处理?或者我可以做一些后处理来把它变成这种格式吗?谢谢您的帮助。

0 投票
1 回答
198 浏览

apache - 将 Lucidworks 与 Documentum 连接起来

我正在构建一个企业搜索应用程序,其中我使用 lucidworks 作为搜索引擎,使用 EMC Documentum 作为存储文档和元数据的后端技术。目前我正在使用 DQL 在中间场景中启动查询和获取数据,但我我正在寻找其他一些工具来连接这两个可能是第三方连接器或其他任何东西。请建议我将 lucidworks 与 documentum 连接的可能方法。

0 投票
1 回答
39 浏览

linux - 在 Lucidworks 服务器上添加 Linux 数据源

我正在尝试使用它在 Lucidworks 上创建 linux 服务器的数据源,我可以索引文档以在其上进行查询搜索。请建议实现它的方法。ps-目前我正在尝试使用 NFS 服务器但无法创建连接

0 投票
1 回答
1314 浏览

solr - 验证 Solr 索引的工具

是否有工具可以验证 Solr 索引并判断它是否已损坏?我用谷歌搜索但找不到任何工具。基本上我需要的是一种可以遍历索引并找到差异的软件

0 投票
2 回答
3077 浏览

solr - 让 Banana 与 Solr 4.2 一起工作

我正在运行 Solr 4.2,并想试用 LucidWorks Banana 产品。但是,当我导航到 Solr 服务器上的香蕉目录时,我收到 404 错误。

我在这里按照他们的 github 站点的说明进行操作,基本上将香蕉src目录放到我的SOLR_HOME\solr-webapp\webapp目录中。

我已尝试按照自述文件的建议修改src\config.js和文件,以将 localhost URL 更改为实际的服务器名称或 IP 地址。src\app\dashboards\default.json两次尝试仍然导致 404 错误。

有没有人幸运地让香蕉与 Solr 4.2 一起工作?这个版本的 Solr 不支持吗?希望我错过了一些非常简单的东西。

谢谢!