问题标签 [carrot2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
243 浏览

java - 如何使用基于其 API 文档的 java 类

我对 Java 很陌生,需要从事一个需要使用开源软件的项目。我对理解那些 Java API 的文档感到非常困惑。作为一个例子,你能告诉我如何使用相关的java类,RemoteXmlSimpleSearchEngineBase,基于它的Java API。

请参考此链接 http://download.carrot2.org/stable/javadoc/org/carrot2/source/xml/RemoteXmlSimpleSearchEngineBase.html

我对这个推导过程很感兴趣,这样我就可以在阅读其API文档的基础上使用其他java类。谢谢。

0 投票
1 回答
1353 浏览

search - Solr3.2 Carrot2 只聚类“其他主题”

据说自 Solr 3.2 发布以来,Carrot 与 Solr 的集成得到了改进,但对我来说却有所不同。我有一个配置完全相同的 Solr 1.4.1 服务器正在运行,Carrot 运行良好,而 Solr 3.2 只给了我“其他主题”。这让我发疯,因为除了我没有例外或任何不寻常的事情。甚至结果 xml 看起来都一样......

不过我并没有对集群组件的标准配置做太多改动:

我最好的猜测是胡萝卜没有与 edismax 一起正常工作(在 Solr 1.4.1 中没有实现),但这可能会产生误导。

我已经重新索引了我的数据,以确保这不是问题。

在胡萝卜工作台中,聚类与 Lingo 作为算法运行良好。当我选择“按来源”时,我得到了 xml 中的“其他主题”。Lingo可能没有配置好?除了 solrconfig.xml 之外必须配置任何东西来解决这个问题吗?

我很感激任何帮助。

0 投票
1 回答
4480 浏览

solr - (胡萝卜)聚类如何在 solr 中工作?

我已经运行 Lucene/Solr 4 来测试不同的特性,也就是“集群”。目前,有 100 万份文档被索引。每个文档都有以下字段:

所有字段都被索引和存储,例如 TEXT,它只被索引,不被存储。我使用以下具体配置:

如果你看你看到的例子,主题是不同的,但日本是一样的。是否可以以这种方式配置 solr/carrot,example1 和 example2 将在一个集群中?因为匹配“日本”?!

此外,可能还有第三个主题,如“新闻/核能”,里面没有“日本”,但标题和文本使用的词是:日本发电厂。为了在一个集群中接收这 3 个消息,什么 solr/carrot 配置是相关的?

谢谢!

0 投票
1 回答
426 浏览

search - 多个参数上的 Carrot2 集群

你好,

我正在研究使用 Solr 和 Carrot2 的搜索引擎。

一切都很好,但胡萝卜做了一件我无法理解的奇怪事情。我想从 Solr 获取结果并使用 Carrot 对它们进行聚类。我整合了所有东西,效果很好,但 Carrot 只集中在我的一个属性上。与结果匹配且没有其他属性的那个。喜欢:

数据

姓名:彼得镇:伦敦爱好:高尔夫、滑雪

姓名:亚瑟镇:柏林爱好:高尔夫、骑自行车

名称:巴黎小镇:伦敦爱好:高尔夫、远足

查询词语:高尔夫

集群如:滑雪自行车远足

..但不是伦敦。

这本身不会让我感到惊讶,但是当我使用 CarrotClusteringWorkbench 时,它确实会聚集在其他参数上。

起初我尝试将配置从工作台导出到 Solrconfig,但它没有任何改变。Solr 使用这些配置,但它们都没有改变这个问题。

任何人都可以帮助我或解释它吗?

0 投票
1 回答
1284 浏览

solr - Solr ClusteringComponent Carrot2:ClassNotFoundException

当我尝试使用集群组件运行 Solr 时出现以下错误。

我已经使用了 apache-solr-clustering.3.2.0.jar

但看起来我缺少一些胡萝卜2 jar 文件。我找不到任何文件来表明我还缺少什么或我做错了什么。

请帮忙

0 投票
0 回答
123 浏览

sunspot - 太阳黑子导轨和胡萝卜2

我正在将 sunspot_rails gem 用于 Rails 应用程序。有没有办法将集群引擎carrot2 集成到rails 应用程序中?显然,carrot2 是太阳黑子的一部分,因为它在 solr 配置中被注释。但我想知道是否有人已经整合了它。

0 投票
1 回答
93 浏览

licensing - 没有网站和文档的商业项目的 Carrot2 许可证

根据carrot2 FAQ,我们应该感谢项目用户使用Carrot2。

我可以在商业项目中使用 Carrot2 吗?是的。唯一的要求是您正确地承认 Carrot2 的使用(在项目的网站和文档上)并让我们知道您的项目。还请记住阅读许可证。

但是我们没有站点或文档,因为我们正在构建封闭的项目。在这种情况下,我们如何整合carrot2?

0 投票
3 回答
908 浏览

data-mining - 比较 Carrot2 中的聚类结果

我正在为我的论文使用 Carrot2 工具,并在该工具上运行不同的算法。我的问题是,如何科学地比较不同算法的结果?我的意思是,我需要证明算法 1 的聚类结果优于算法 2 的结果。熵和纯度值对我有用吗,如果是,我该如何应用它们?

谢谢。

0 投票
1 回答
545 浏览

java - 显示carrot2集群内容

我正在使用carrot2 集群引擎(通过Java API),并且已经为我的数据库中的一些虚拟数据获得了集群。我想知道如何在控制台应用程序或 Web 应用程序中以人类可读的形式显示它?

目前,我的集群采用这种格式:

最终列表 Cluster_List=result.getClusters();

结果的类型为 "ProcessingResult" ,在 Carrot2 API 中定义。

如果我尝试使用一种天真的方法打印出 Cluster_List 的内容,我将得到对象的地址。请指导我设置一种显示集群内容的方法——标签、内容,如果可能的话——分数!

干杯! 阿内鲁德

0 投票
5 回答
8799 浏览

solr - 搜索存储在 Hadoop 中的文档 - 使用哪个工具?

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI ......

当您阅读有关该工具的信息时,您通常可以确定将提及其他工具中的每一个。

我不希望你向我解释每一个工具——当然不会。如果您可以帮助我针对我的特定场景缩小此设置范围,那就太好了。到目前为止,我不确定以上哪一个适合,而且看起来(一如既往)有不止一种方法可以做要做的事情。

场景是:500GB - ~20 TB 的文档存储在 Hadoop 中。多种格式的文本文档:email、doc、pdf、odt。有关存储在 SQL db 中的文档的元数据(发件人、收件人、日期、部门等)。文档的主要来源将是 ExchangeServer(电子邮件和附件),但不仅如此。现在开始搜索:用户需要能够对这些文档进行复杂的全文搜索。基本上,他会看到一些搜索配置面板(java 桌面应用程序,而不是 web 应用程序) - 他将设置日期范围、文档类型、发件人/收件人、关键字等 - 触发搜索并获取文档的结果列表(以及每个文档信息为什么包含在搜索结果中,即在文档中找到了哪些关键字)。

我应该考虑哪些工具,哪些不应该考虑?关键是用最少的“胶水”代码开发这样的解决方案。我精通 SQLdbs,但对 Apache 和相关技术很不适应。

基本工作流程如下所示:ExchangeServer/其他来源 -> 从 doc/pdf/... 转换 -> 重复数据删除 -> Hadoop + SQL(元数据) -> 构建/更新索引 <- 搜索文档(并快速完成) -> 显示搜索结果

谢谢!