问题标签 [manifoldcf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
952 浏览

solr - 使用 Datafari 从图像中搜索元数据

我正在寻找一个开源文档管理系统,以索引所有类型的文件(文本:[pdf,doc...],图像[jpg,png,bmp...],视频[mov,mp4... ]) 我偶然发现了Datafari

它使用Solr搜索引擎和ManifoldCF来管理内容存储库连接,并具有Tika 连接器来帮助搜索元数据。

我安装了它,我正在尝试进行设置,以便让它找到根据元数据标准搜索的图像,但到目前为止还没有运气。

我添加了一个带有一些元数据的图像的本地存储库:

在 solr schema.xml 我添加了我需要的字段:

然后我重新启动了服务器

在 Job 列表的 ManifoldCF 管理中,我在 Job 中添加了 Tika 提取器转换:管道是:我的存储库 -> Tika Extractor -> DatafariSolr

我尝试在 Solr 界面中搜索:对于 q,我尝试过"subject:legs"我在 Solr 界面中检索了数据

但在 Datafari 搜索引擎中,我没有得到任何结果

Datafari 的帮助不是很有帮助,我查看了Manifoldcf 文档但没有更多的运气。我想有一个通过元数据进行这种搜索的真实示例。应该修改和/或测试什么以查看结果中的图像?

Olivier Tavard 回答后更新:

谢谢您的帮助。这个工具真的很有前途,虽然我在配置它时仍然遇到问题:

我找不到 datafari/WebContent/js/search.js。您的意思是:datafari/tomcat/webapps/Datafari/js/search.js?

我添加了你的建议。

我还添加了“描述”和“创建者”字段。

1 -在 SolR 搜索中: - 如果我在 q“动物”中搜索,我可以检索我的图像(而不是“动物”),这现在比“描述:动物”更好。- 但如果我搜索“腿”,我什么也检索不到。是不是因为有几个<meta>“主题”,有不同的搜索方式呢?- 如果我搜索“tarzan”(来自创建者字段),我也不会检索任何内容。

2 -在 Datafari UI 搜索中: - 我所做的更改似乎“破坏”了搜索:当我搜索时,我的轮子一直在转动。在控制台中我有:

3 - 我为相同的字段添加了另一张带有其他元数据的图片,并且在 SolR 搜索中,如果我查询“jpg”,它们都会出现(OK),但在 json 响应中,额外的字段不会出现在另一个图片 !

我很困惑。

在 Olivier Tavard 回答后编辑

抱歉回答迟了,我正在处理一些紧急的自动取款机,无法按我的意愿测试/回答。

我按照您的步骤进行操作(非常具有指导意义,谢谢),并且在某种程度上设法在客户搜索中获得了结果:)

但 :

1-我必须使用通配符在datafari gui中找到它:“伪装的马”=>我必须输入'**horse*',而不是'horse'

2 - 如何检索多个字段的数据(例如:meta:keyword ...)

3 - 我有一个“标准”安装,但我有一个 404 用于localhost:8080/Datafari/css/menu.css,也许这就是我在刷新页面之前得到搜索轮的原因

0 投票
1 回答
248 浏览

rest - 如何使用 Apache ManifoldCF 通过 REST API 获取“文档状态”数据

我们正在使用 Apache ManifoldCF。在管理 UI 中,状态报告 -> 文档状态有报告。

是否可以通过 ManifoldCF 的Restful API获取该内容?

我发现的最接近的东西是通过命令控制下的 org.apache.manifoldcf.crawler.RunDocumentStatus但我无法弄清楚是否可以通过 HTTP API(而不是直接的 Java 代码)使用它

0 投票
2 回答
279 浏览

solr - 是否有适用于 ManifoldCF 的 AmazonS3 连接器?

我想使用歧管来爬取亚马逊 s3 存储桶,以将爬取中继到 OpenSearchServer。我见过其他产品带有亚马逊 S3 连接器,我只是想知道是否有适用于 ManifoldCF 的公开可用的连接器。

0 投票
1 回答
1414 浏览

spring - 使用 Spring Data Solr 时向 Solr 添加自定义参数

是否可以使用生成以下请求的 Spring Data Solr 向 Solr 查询添加附加参数?

我想添加 Apache Manifoldcf 所需的参数、AuthenticatedUserName 及其值,以及由 Spring Data Solr (q, wt) 自动填充的其他参数。

谢谢你,V。

0 投票
2 回答
325 浏览

indexing - 多方面的 cf 是 Google Drive 索引的好选择吗?

我正在使用 apachemanifoldcf 开源项目将 Google Drive 中的文档索引到我的 solr 中。我经常看到它在索引数据时非常不一致。即使在 solr 中反映少量文档也需要时间。您真的认为使用它来索引 Google Drive 是一个不错的选择吗?

0 投票
0 回答
297 浏览

elasticsearch - 索引 ACL ManifoldCF + ElasticSearch + CMIS

我需要使用 ManifoldCF 和 CMIS 连接器在 Elastic Search 中索引 ACL。我添加了带有参数的 CMIS 权限连接器:

但是 ACL 没有在文档中被索引我有这样的东西:

请帮帮我。

0 投票
1 回答
81 浏览

lastaccesstime - 如何使用歧管 cf 维护 lastaccesstime

我正在使用基于多种 cf 的 Windows 文件共享连接器来抓取文件。但 Manifold CF 也会更新它读取的所有文件的 lastAccessTime。

我想读取所有文件而不更新它们的 lastAccessTime。

我需要更新 Manifold CF 中的哪些文件以及如何实现这一点?

0 投票
1 回答
838 浏览

apache-tika - 使用 ManifoldCF 提取文件内容

我正在尝试将 ManifoldCF 与文件系统连接器一起使用。

它就像一个魅力:使用 Tika 内容提取器,我从我的文档中获得了所有预期的元数据。

但是...如何配置 ManifoldCF 以获得与此命令等效的命令:java -jar tika-app-1.9.jar --text 我的意思是,我想获取文件的内容并将其推送到我的输出连接中. 这怎么可能 ?

0 投票
2 回答
233 浏览

elasticsearch - 创建 ElasticSearch 输出连接器时出现 ManifoldCF 错误

我在 Linux 虚拟机上运行 ElasticSearch 2.2。我在同一网络中的另一个 VM 上运行 ManifoldCF 2.3。使用 ManifoldCF 的浏览器 UI,我添加了 ElasticSearch 输出连接器,当我保存它时,连接器状态出现错误:

有任何想法吗?

0 投票
3 回答
1376 浏览

solr - 如何使用 ManifoldCF 或 nutch 抓取具有 SAML 身份验证的网站?

我正在尝试抓取一个网站,更具体地说是一个具有 SAML 身份Google Site验证ManifoldCF并将抓取的数据索引到 Apache Solr 的网站。但是当我抓取 URL 时,它让我302重定向到登录页面,然后说RESPONSECODENOTINDEXABLE.

我不确定我的身份验证是否正确。在manifoldCF 中,我们有HTTP basic身份验证选项NTLM authenticationSession-based访问凭据身份验证方法。我使用Session based了更像是基于表单的身份验证而不是身份验证的SAML身份验证方法。

有没有人使用具有SAML身份验证的manifoldCF 爬取了一个网站?如果没有manifoldCF,有没有人能够通过 Apache Nutch 实现这一点,因为恐怕它也只提供HTTP基本的DigestNTLM身份验证。

任何见解都会有所帮助。如果这里有人认为可以轻松完成,可以提供有关该问题的更多信息。基本上,当我抓取https://sites.google.com/a/my-sub-domain.com时,它会重定向到 SSO 登录页面,并且抓取工具拒绝再抓取,并给出 302 错误。这是一个基于 Intranet 的网站。