问题标签 [carrot2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1356 浏览

solr - 使用 Apache Solr 和 Carrot2 进行集群

我对 Apache Solr 和 Carrot2 都很陌生。我正在尝试使用 Solr 索引大量输入文件。最终目标是对文档进行聚类。

我不清楚集群是由 Solr 还是由 carrot2 工作台完成的?

任何人都可以指导我吗?

0 投票
1 回答
146 浏览

maven - Maven内部依赖属性

技术:Maven 3 + IntelliJ + ElasticSearch 5.5.0 + Carrot2 3.15.1

我有一个带有 Carrot2 和 ElasticSearch 的项目,这引起了一些冲突。Carrot2 使用 Lucene 5.3.1,ElasticSearch 使用 6.3.1 版本。我想强制胡萝卜2 使用 6.3.1 Lucene 版本来修复它。

我试图在我的项目的主 pom 文件中添加一个属性:

不幸的是,这种方式仍然会引发由 Lucene 版本冲突引起的错误。最后,我通过更改胡萝卜的依赖 pom 文件的内部值找到了本地机器的解决方案:

它工作正常,但只在我的本地机器上。在胡萝卜的 pom 文件中更改的 Lucene 版本似乎没有传播,并且需要在任何项目实例上手动更改此版本。是否有可能强制 maven 在外部依赖中使用我的项目属性值?

0 投票
1 回答
73 浏览

cluster-analysis - 决定 Carrot2 中的簇大小设置

我正在使用胡萝卜2 的 STC(后缀树聚类)算法对一堆文档进行聚类。默认情况下,算法形成的最大聚类数为16。有没有办法决定生成的集群数量?

下面是调用 STC 集群的代码。

0 投票
1 回答
123 浏览

carrot2 - Carrot2 dcs 错误 500

我已经在 Web 应用程序上安装了 Carrot2。我发送带有不同选项的搜索,例如:预期结果的数量、深度级别。我启动 dcs(端口 8080)并执行我的搜索(目前我在 localhost 上使用 wamp)。我用 baseurl 初始化了一个新的 Carro2Processor:http://localhost:8080/dcs/rest

我用 setAttributs() 发送我的属性:预期结果的数量和深度级别

这是我在浏览器上的错误:

有没有人遇到过这个问题?谢谢(我忘记了:我的 apache 或 php(wamp) 中没有任何错误日志)

0 投票
1 回答
91 浏览

carrot2 - Carrot2 dcs 语言

我已经在 Web 应用程序(PHP 语言)上安装了 Carrot2。一切都很完美。现在我想更改结果的语言。我想把英语换成法语。我在网络上搜索了胡萝卜2 文档,但没有找到我想要的(这个链接很有用,但似乎 dcs 文件夹自这篇文章以来发生了变化http://carrot2-users-and-developers-forum.607571.n2.nabble.com/Change-Language-in-DCS-REST-PHP-td639270.html)。无论如何,我用一个简单的形式(和不同的变量)传递我的参数(算法、查询、源等),然后用 curl 将它们(PHP)发送到carrot2的方法。我尝试了不同(奇怪或野蛮)的方式来发送法语:

我试图在 setAttribute() 函数中设置这样的语言,当然它不起作用。

我还尝试更改CURLOPT_HTTPHEADER(添加' Accept-langugage: fr')。我看到了不同的响应,但仅适用于使用 java 的开发人员和使用 php 的我。是否可以使用 PHP 上的 setAttribute() 方法传递语言选择?有人知道这样做的方法吗?

提前谢谢你(我用的是carrot2-dcs-3.16)

0 投票
1 回答
39 浏览

carrot2 - Carrot2.Net NuGet 3.11 和 3.15 以及 IKVM

版本 3.11 和 3.15 NuGet 包需要 IKVM.8.1.5717.0 但在使用 ILSpy 查看时,两者似乎都是针对版本 = 7.2.4630.5 编译的。

运行 C# 示例表明它仅适用于 IKVM.OpenJDK.Core,版本 = 7.2.4630.5。

我有 IKVM.8.1.5717.0 的要求,因为我在网站中运行了其他包,这会出现问题。我们真的不想改变架构来适应 7.2 和 8.1。

使用 IKVM.8.1.5717.0 从源代码重新编译 Org.Carrot2.Core.dll 并复制 Org.Carrot2.Core.NET.dll 会引发

指定自定义属性的二进制格式无效。

在里面org.carrot2.controller.process(Map attributes, params Class[] processingComponentClasses)

是否有带有 IKVM.8.1.5717.0 的 3.11 或 3.15 的可下载稳定版本?

0 投票
1 回答
89 浏览

centos7 - WARN - 为 SelectChannelConnector 配置的线程不足

我在centos 7上使用carrot2搜索服务器。但是当我想运行dcs.sh文件时,它会产生[WARN] insufficient threads configured for SelectChannelConnector@0.0.0.0:8080.

任何帮助将不胜感激 。

0 投票
1 回答
162 浏览

java - 我无法在 Windows 10 上打开 Carrot2 Workbench

我尝试使用 JRE 9.0.4 在我的 Windows 10 x64 中打开 Carrot2 Workbench,但出现如下错误:

完整日志:https ://en.pastebin.ca/3977647

请任何形式的帮助表示赞赏,谢谢。

0 投票
1 回答
126 浏览

java - Carrot2 在搜索中不显示所有包含特定单词的集群

StackOverFlow从我的数据库中选择了一些包含特定单词的行,并将它们保存在一个文本文件中。然后,我使用 Lucene 来索引文件内容。

当我尝试StackOverFlow使用 Carrot2 搜索索引文件时,它不返回任何文档,但是对于我知道它们至少存在于一个文档中的换句话说,它返回其中一些。

在 Carrot2 文档中,有一个关于名为的属性的解释Maximum word document frequency

最大 word 文档频率。单词在所有文档中所占的最大文档频率。文档频率大于 maxWordDf 的单词将被忽略。例如,当 maxWordDf 为 0.4 时,超过 40% 的文档中出现的单词将被忽略。值 1.0 表示将考虑所有单词,无论它们出现在多少个文档中。当大多数输入文档中出现某些单词(例如,页眉或页脚中的公司名称)并且这些单词支配集群标签时,此属性可能很有用。在这种情况下,将 maxWordDf 设置为低于 1.0 的值,例如 0.9 可以改善集群。

这个属性的另一个有用的应用是当需要只生成非常特定的集群时,即包含少量文档的集群。这可以通过将 maxWordDf 设置为极低的值来实现,例如 0.1 或 0.05。

所以,当我设置maxWordDf为 1.0 时,没有任何变化,它仍然在搜索中显示没有文档。

我该如何解决我的问题?

0 投票
0 回答
76 浏览

solr - Solr 和 Carrot2 Workbench 生成的集群不一致

我正在尝试使用 Carrot2 Workbench 调整 Solr 中的集群。虽然 Workbench 产生了不错的结果,但 Solr 拒绝这样做,并且它的集群非常不同。

我的流量:

  • 准备一组文档 ID 并单独查询它们 (fq)
  • 从 Workbench 调整和导出 XML 配置
  • 重新启动 Solr 以确保它全部被拾取
  • 重复相同的查询(我还通过检查 Solr 日志确保它与 Wrokbench 中的查询完全相同)
  • 比较集群......这是我迷路的那一刻。它们甚至是结构完全不同。Workbench 生成更长更复杂的标签,而 Solr 标签非常简单。

我尝试从 XML 和查询中调整参数,但效果很小。但是足以看到配置正在被拾取。

我检查的另一件事是 Carrto2 CLI 工具。我将数据从 Solr 导出到 XML,并使用 CLI 和从 Workbench 导出的配置来生成集群,CLI 与 Workbench 一致。

这使得 Solr 成为一个奇怪的人。我使用 Carrot2 v3.15.1 和 Solr 7.2.1

我错过了什么?为什么 Solr 从相同的数据和配置生成不同的集群?