问题标签 [manifoldcf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
683 浏览

filenet - Apache ManifoldCF。无法创建到 FileNet 的存储库连接

我正在尝试从 ManifoldCF 连接到 FileNet,但没有成功。我得到的错误是

我的参数摘要如下。请注意,我将 * 放在我不确定的参数旁边,并且服务器名称和用户名是虚构的

我已验证 FileNet CE ping 页面已启动并在 URL http://samplehost.mycomp.org:7003/FileNet/Engine上运行

经典的 Workplace 可在https://samplehost-wp.mycomp.org/Workplace找到。请注意,Workplace 是通过 HTTPS 而 CE 是通过 HTTP

有人使用 Apache Manifold 成功连接到 FileNet 存储库吗?

0 投票
0 回答
88 浏览

documentum - 可以在没有 Webtop 的情况下将 ManifoldCF 连接到 Documentum 吗?

我正在研究将 Documentum 作为存储库连接到 ManifoldCF 和 Solr 作为输出的概念证明。连接到 Documentum 的 ManifoldCF 小部件要求提供 Webtop URL,它不允许我将其留空。我们还没有在我的公司实施 Webtop。ManifestCF 可以在没有 Webtop 的情况下连接到 Documentum 吗?

0 投票
1 回答
5822 浏览

apache-zookeeper - 使用solrCloud爬取时出现SessionException

我使用 solrCloud 6.1.0。我试图用manifoldcf2.4 爬行。但它不起作用。

下面是执行环境。java:1.8(但是安装manifoldcf的时候是1.7) zookeeper:3.4.9

如果我从manifoldcf 开始工作,我可以抓取前几项。但是过了一会儿,又出现了zookeeper的连接错误,solrCloud配置的部分节点掉了。

下面是zookeeper的错误日志。

错误 org.apache.solr.servlet.SolrDispatchFilter
null:org.apache.zookeeper.KeeperException$SessionExpiredException: KeeperErrorCode = org.apache.zookeeper.KeeperException.create(KeeperException.java:127) at org.apache.zookeeper.KeeperException.create(KeeperException .java:51) 在 org.apache.zookeeper.ZooKeeper.getData(ZooKeeper.java:1151) 在 org.apache.solr.common.cloud.SolrZkClient$7.execute(SolrZkClient.java:252) 在 org.apache.solr .common.cloud.SolrZkClient$7.execute(SolrZkClient.java:249) 在 org.apache.solr.common.cloud.ZkCmdExecutor.retryOperation(ZkCmdExecutor.java:65) 在 org.apache.solr.common.cloud.SolrZkClient。 getData(SolrZkClient.java:249) at org.apache.solr.common.cloud.ZkStateReader.updateAliases(ZkStateReader.java:556) at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:296) at org .apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:169) 在 org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:235) 在 org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain. java:206) 在 org.apache.solr.servlet.ProxyUserFilter.doFilter(ProxyUserFilter.java:241) 在 org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:235) 在 org.apache.catalina.core .ApplicationFilterChain.doFilter(ApplicationFilterChain.java:206) 在 org.apache.solr.servlet.SolrHadoopAuthenticationFilter$2.doFilter(SolrHadoopAuthenticationFilter.java:140) 在 org.apache.hadoop.security.authentication.server.AuthenticationFilter.doFilter(AuthenticationFilter. java:384) 在 org.apache.solr.servlet.SolrHadoopAuthenticationFilter。doFilter(SolrHadoopAuthenticationFilter.java:145) 在 org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:235) 在 org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:206) 在 org.apache .solr.servlet.HostnameFilter.doFilter(HostnameFilter.java:86) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:235) at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java :206) 在 org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191) 在 org.apache.catalina.core 的 org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233)。 StandardHostValve.invoke(StandardHostValve.java:127) 在 org.apache.catalina.valves.ErrorReportValve。在 org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:293) 在 org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:293) 在 org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109) 调用(ErrorReportValve.java:103) .coyote.http11.Http11Processor.process(Http11Processor.java:861) 在 org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process(Http11Protocol.java:606) 在 org.apache.tomcat.util.net.JIoEndpoint$Worker .run(JIoEndpoint.java:489) 在 java.lang.Thread.run(Thread.java:662) 错误 org.apache.solr.servlet.SolrDispatchFilterapache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process(Http11Protocol.java:606) at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:489) at java.lang.Thread.run( Thread.java:662) 错误 org.apache.solr.servlet.SolrDispatchFilterapache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process(Http11Protocol.java:606) at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:489) at java.lang.Thread.run( Thread.java:662) 错误 org.apache.solr.servlet.SolrDispatchFilter
null:org.apache.zookeeper.KeeperException$SessionExpiredException: KeeperErrorCode = org.apache.zookeeper.KeeperException.create(KeeperException.java:127) 的 /aliases.json 会话过期

我不知道为什么动物园管理员在爬行的过程中被切断了。

有人请教。谢谢。

0 投票
1 回答
386 浏览

postgresql - Job ManifoldCF 工作,但几秒钟后冻结

我已经安装了ManifoldCF,它们是连接器和 postgres。我有 2 份工作ManifoldCF

  • 生产中外部 SolR 的 LocalFile 作业
  • 本地 SolR 的 JCIFS 作业

工作形象

在此图像上,您可以看到问题。我可以开始工作,他们索引文档,但他们的工作在几秒钟后冻结,如果冻结,我不能中止他们的工作。manifoldCF如果它们被冻结,我需要重新启动以中止和/或重新启动它们的工作。你有解决方案吗 ?

PS:冻结前的时间,不是固定的。文档数也索引。不是相关性。PS2:我没有这个问题的日志

在日志文件夹上:cat . -name * | grep -R ERROR | grep 2017-04-21 仅返回 ManifoldCF 界面上的错误图像 tiff。

0 投票
1 回答
336 浏览

elasticsearch - 流形共享点弹性搜索

我正在尝试在 ManifoldCF 2.7.1 中创建一个爬虫作业,我创建了弹性输出一切都很好,创建了 SharePoint 存储库,一切都很好。现在,当我创建作业并添加弹性输出时,我看不到弹性搜索选项卡,只有名称、连接调度路径、安全性和元数据。然后我运行作业,爬虫获取并处理一些文档,但最后,Elasticsearch 中什么也没有。如果您有任何想法,请...
顺便说一下,我尝试使用 elasticsearch1.2.1,1.7.0,5.2.0 and 5.4.0和 SharePoint 2010 和 2013,结果相同。

0 投票
0 回答
197 浏览

jcifs - ManifoldCF ERROR JCIFS 连接器,崩溃代理

我将 ManifoldCF 2.7 与 multiprocess-zk 一起使用,10 分钟后我的 2 个代理崩溃了。错误 :

它是多进程-zk-example,我已经启动了 2 个代理。

如果您需要更多详细信息,我可以。

谢谢你的帮助。

0 投票
1 回答
179 浏览

apache - 使用 Manifoldcf 和 Solr 抓取 Jira - 字符串索引超出范围

我正在使用 Manifoldcf v2.7.1 和 Solr v5.2.1 并尝试使用 Jira 连接器抓取 Jira,并且在 Manifoldcf 中收到以下错误:

注意:我从错误消息中删除了我的服务器和端口信息

Solr 的错误日志之一在堆栈跟踪的顶部显示以下内容:

不知道是什么导致了这个区域以及如何修复它。提前致谢!

0 投票
1 回答
264 浏览

pdf - Apache ManifoldCF TIKA

我正在尝试使用 Apache ManifoldCF 上的 Apache Tika 集成来提取 PDF 的文本内容,以便在 Elasticsearch 服务器中的笔记本电脑上摄取一些 PDF 文件。

在我的工作中正确创建 Tika Transformer 并对其进行配置后,我看到 ES 上的结果字段“_content”填充了文件的二进制编码,而不是文本。

我也看到了这个:使用 ManifoldCF 提取文件内容,但仍然没有提供答案(自 2015 年以来!)

有谁能够帮我?

谢谢!

0 投票
2 回答
580 浏览

java - 爬取文件系统和索引的最佳方式

我正在做一个项目,我需要爬取超过 10TB 的数据并将其编入索引。我需要实现花费更少时间的增量抓取。

我的问题是:对于所有大型组织来说,与 java 一起使用的最佳工具是哪一个?

我正在使用 Solr 和 Manifold CF 进行尝试,但 Manifold 在 Internet 上的文档很少。

0 投票
0 回答
107 浏览

elasticsearch - 搜索中的 Word/PDF 文档片段呈现

我有兴趣构建一个软件系统,该系统将连接到各种文档源,从每个源中包含的文档中提取内容,并将提取的内容提供给 Elastic 或 Solr 等搜索引擎。该搜索引擎将作为基于 Web 的搜索应用程序的后端。

我有兴趣在搜索结果中呈现这些文档的片段,以查找 Microsoft Word 和 PDF 等知名类型。如何在搜索中实现文档片段呈现?

我很乐意以任何格式提供这些片段,包括图像。我只是希望能够为我的用户提供某种格式的预览,以了解他们对知名类型的结果。

谢谢!