问题标签 [carrot2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
520 浏览

solr - carrot2 Workbench and filter Query fq

i need to add clusteringComponent from solr to my application. For tuning the clusteringComponent i use the Carrot2 workbench, which is very useful to find out what ar the right parameters. The point is: i only like to analyse / cluster new data, which is added at the past 24 hours to the solr/lucene index. For that usually i use an timestemp filed on querytime, like:

The question is: is there a way to add this filter query to the carrot2 workbench as an search parameter?

0 投票
2 回答
478 浏览

carrot2 - 如何增加 Carrot2 的 Java 堆大小?

如何增加 Carrot2 Document Clustering Workbench 的 Java 堆大小?

0 投票
1 回答
163 浏览

tweets - 我可以使用cluto 和carrot2 工具将推文分组吗?

我可以使用 cluto 和 carrot2 工具将推文分组吗?

最后一个问题是carrot2 和cluto 语言无关的NLP 工具?

0 投票
2 回答
921 浏览

solr - 文档标记

我有非常大的 solr 索引。我想用能够更好地代表该文档的术语来标记所有文档。这种类型的聚类结果是否也属于文档标记?

哪种方法更好,索引时间文档标记或查询时间文档标记,如胡萝卜2?

0 投票
1 回答
256 浏览

cluster-analysis - 在同一数据集上使用胡萝卜2获得的聚类数不一致

我正在使用胡萝卜2 对一组 500 封电子邮件进行聚类。我正在使用由胡萝卜2 提供的 BisectingKMeans 算法。在同一个数据集上,当我指定 k = 9 时,只生成 6 个,当我让它运行 8 个集群时,生成 7 个 - 但是当我给 10 个集群运行时,所有 10 个都生成。谁能帮我弄清楚这背后的原因?

0 投票
1 回答
399 浏览

nlp - java中允许文档聚类的独立和开源库,类似于carrot2

我正在寻找集群短文本文档,每个几百个字符长。

我一直在使用 carrot2 工作台,我真的很喜欢它的功能,但 API 非常陈旧且难以理解/使用。

我正在寻找具有类似功能(聚类算法)但具有更好 API 的替代品。

我真的在寻找 Java 或 Python 中的东西,它必须像啤酒一样开源且免费

所以 lingpipe ( http://alias-i.com/lingpipe/ ) 不符合条件。

谢谢。

0 投票
1 回答
89 浏览

carrot2 - 识别合并气泡中的文档

我是新来的carrot2,所以请多多包涵。我正在使用 32 位的 carrot2workbench 来使用 Aduna 集群图。查看集群之间的关系很有帮助,但是如何识别集合之间重叠(合并气泡)中的文档。例如,如果我有 1 个包含 20 个文档的集群和另外 30 个文档,并且重叠的 5 个文档,如何找出这 5 个文档是什么?我还没有找到这样做的选项。如果不能做到这一点,它就不会很有用。请帮忙。太感谢了!

0 投票
2 回答
2993 浏览

carrot2 - 胡萝卜2 - 我可以从文件夹中聚集文档吗?

我正在尝试对作为研究项目的一部分收集的文档进行聚类。我正在尝试使用 Carrot2 工作台,但不知道如何将胡萝卜指向包含文档的文件夹。请问我该怎么做?(我有少量文档(.txt)要比较,它们位于独立的研究机器上,所以我无法连接到网络并在那里处理它们)。

任何帮助都感激不尽!

(我正在尝试确定文档中的相似之处/主题/组;如果 Carrot2 不是正确的工具,那么将不胜感激其他建议!)

非常感谢,

约翰

0 投票
1 回答
177 浏览

carrot2 - 胡萝卜2中的Elasticsearch文档源

只是想知道 Carrot2 开发人员是否计划为 elasticsearch 创建一个源?即org.carrot2.source.elasticsearch

我直接在 elasticsearch 中看到了该插件,但就我而言,我希望能够使用 Carrot2 webapp。

0 投票
2 回答
356 浏览

solr - Solr/Carrot2 集成

SOlr/Carrot2 集成

我有多个文本文件,每个我创建 XML 来索引 Solr 上的文档,如下所示

索引中使用的模式

现在我正在尝试集成carrot2集群,为此我点击了这个链接 http://carrot2.github.io/solr-integration-strategies/carrot2-3.8.0/index.html

我的问题是集群查询的结果,我只得到一个集群,如下所示

我应该得到更多的集群 我的语料库包含 60 个文本文档