问题标签 [retrieve-and-rank]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
129 浏览

solr - IBM watson 检索和排名训练错误“java.util.ArrayList 无法转换为 java.lang.Float”

我们在 IBM Watson for Worksheet 中将 Solr Schema 定义为问题集合。很少有模式元素是多值字段。我们能够使用检索和排名服务加载文档和索引文档,但是在生成训练数据集时,我们会遇到数据类型转换错误。

架构

使用 train.py 的训练命令会抛出异常 curl -u "**********":"************" " https://gateway.watsonplatform。 net/retrieve-and-rank/api/v1/rankers/3b140ax15-rank-3108

不幸的是,异常并没有提供有关它抛出异常的字段的任何信息。

Schema 中定义的 MultiValue 字段似乎存在问题,并为其生成训练数据集。多值字段允许我们存储多个问题、给定工作表编号的文本以及任何数据类型。例如,问题编号的整数,在 question_number 字段中具有值 [1,2,3,4,5]。

生成训练数据集时,Watson API 抛出异常,数据类型转换错误“java.util.ArrayList cannot be cast to java.lang.Float”。

0 投票
2 回答
456 浏览

indexing - Indexer IOException 作业在“Bluemix”solr 中索引 nutch 爬网数据时失败

我正在尝试通过 Bluemix solr 索引 nutch 爬网数据。我在命令提示符中使用了以下命令:

bin/nutch index -D solr.server.url="https://gateway.watsonplatform.net/retrieve-and-rank/api/v1/solr_clusters/CLUSTER-ID/solr/admin/collections -D solr.auth= true -D solr.auth.username="USERNAME" -D solr.auth.password="PASS" 爬取/crawldb -linkdb 爬取/linkdb 爬取/segments/2016*

但它无法完成索引。结果如下:

我猜它与solr.server.url地址有关,也许是它的结尾。我以不同的方式改变了它,例如

https://gateway.watsonplatform.net/retrieve-and-rank/api/v1/solr_clusters/CLUSTER-ID/solr/example_collection/update ”。

(因为它被 Bluemix Solr 用于索引 JSON/CSV/... 文件)。但现在没有机会了。

任何人都知道我该如何解决?如果问题如我所料,任何人都知道 solr.server.url 究竟应该是什么?顺便说一句,“example_collection”是我的集合名称,我正在使用 nutch1.11。

0 投票
0 回答
263 浏览

java - Watson Retrieve and Rank:无法在 java 中训练排名器

我已经按照 IBM 网站上的教程(https://www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/doc/retrieve-rank/get_start.shtml),我现在正在尝试应用相同的Java中的程序,但是当我开始训练排名器时遇到了一些麻烦。

我使用了教程中提供的数据(Cranfield 数据集),但是排名者继续训练,并且在开始后大约 20 分钟,排名者状态变为“失败”。

我猜我错过了一些东西,因为它与 curl 完美配合,但我无法弄清楚我的代码有什么问题。

结果如下:

欢迎所有建议,感谢您的宝贵时间。

0 投票
1 回答
361 浏览

java - Java中Retrieve & Rank服务的“Rank”解释

有没有人使用 Java SDK 的 Retrieve & Rank 服务(特别是 Rank 服务)?

我想了解它是如何工作的,因为有些观点似乎我不合逻辑:

  • Java 方法有什么区别,我们必须使用 Apache Solr 执行搜索查询,然后调用该方法rank;和 CURL 方法,我们只需要运行一个查询?
  • 为什么该方法rank采用包含搜索查询结果的 CSV 文件,而我们显然不能在 CSV 中获得搜索查询的结果?

我在本文档和本示例中都没有找到我的回复。

谢谢你的时间。

0 投票
1 回答
167 浏览

python - Watson 检索和排名:Python Bluemix 运行时

我正在尝试在 Bluemix 上完成以下教程: https ://www.ibm.com/watson/developercloud/doc/retrieve-rank/get_start.shtml

但是,由于安全策略,我无法将 Python 本地安装到我的系统上。有没有一种方法可以通过在 IBM DevOps Services 中使用 Bluemix 上的 Python 运行时托管我的代码来运行本教程?

我不确定是否可以像本地安装的 Python 一样利用 Bluemix Python 运行时并接受以下命令行指令:

第 4 阶段:创建和训练排名器。

任何反馈将不胜感激!

0 投票
1 回答
116 浏览

python - 在 Python 配置文件类型中检索和排名?

我正在使用包retrieve_and_rank中的 Python 类watson_developer_cloud

主要问题:

在函数中,我们为参数create_config传入什么类型的对象?config一个zip文件夹?

我使用 IBM 提供的示例配置文件夹只是为了测试,当我打电话时

我收到此错误:

WatsonException:未知错误

压缩文件夹与我的代码位于同一目录中。最后一个论点应该是什么?我想知道为什么它不能从我传入的字符串中识别出 zip 文件。

0 投票
1 回答
37 浏览

python - 发布到 Bluemix Retrieve_and_Rank 给出状态 0,但不起作用

我正在尝试为 Bluemix Retrieve and Rank 服务中的一些网页编制索引。所以我确实用 nutch 1.11 抓取了我的种子,将抓取的数据(大约 9000 个 URL)转储为文件,将那些可能的数据(例如 xml 文件)发布到我的收藏中:

并使用 Bluemix Doc-Conv 服务将其余部分转换为 json:

然后将这些 Json 结果保存在一个 json 文件中并将其发布到我的收藏中:

一切听起来都很好。json 文件应该是这样,当我发布数据时,我确实收到了状态 0,我认为这意味着发布是正确的。但是当我发送查询时:

结果什么都没有。它什么也没找到。我以前做过同样的事情,使用相同的命令结构和所有内容,并且它有效。我刚刚制作了一个新系列,现在它不起作用。

我的数据是否已编入索引?那么为什么查询不起作用?当我尝试获取 Solr 集群的使用统计信息时,结果是:

{"disk_usage":{"used_bytes":2210,"total_bytes":34359738368,"used":"2.1582 KB","total":"32 GB","percent_used":6.4319465309381485E-6},

"memory_usage":{"used_bytes":2069028864,"total_bytes":4194304000,"used":"1.9269 GB","total":"3.9063 GB","percent_used":49.3294921875}}

我认为这意味着我的数据已被索引并存储在我的集群中。刚才我意识到,每次我发布我的数据时,数据使用量和内存使用量都不会改变。这是否意味着发布未完成?即使我收到状态 0?如果是的话,有什么想法是什么问题?为什么会这样?

它与 solr_config 有什么关系吗?
任何有关如何从查询中获取结果的帮助或想法将不胜感激。

0 投票
1 回答
249 浏览

python - 检索和排名 Python:将什么样的“答案数据”传递给排名方法?

我正在使用 Python 访问 Retreive-And-Rank 服务。到目前为止,我已经上传了我的配置和文档,并在相关文件上训练了我的排名器。我想剩下的就是将一些查询结果(来自 Solr?)传递给我的 RAR 对象的“rank”方法。

我的问题:这些结果究竟是什么,它们以什么形式出现?我如何访问它们?

现在我正在使用 get_pysolr_client() 方法访问 PySolr 对象,然后搜索查询并使用返回的结果:

我这样做是因为它类似于 IBM 在Java 示例中的 rank() 方法中所做的。但我收到错误消息:

我得到这个是因为 PySolr 返回一个“结果”对象。

我应该将什么传递给 rank() 方法以使其工作?

rank 方法的 Retrieve_and_Rank 规范如下,我认为 answer_data 应该是一个“类文件”对象:

0 投票
1 回答
1130 浏览

field - 元素类型 \"field\" 必须后跟属性规范 \">\" 或 \"/>\"。"

我正在尝试使用我的 solr _config 进行收藏。我收到以下错误:

field\" 必须后跟属性规范 \">\" 或 \"/>\"。" }

我检查了 schema.xml 中存在的所有字段。它们都以“/>”关闭。关于如何解决此错误的任何想法?
任何帮助或想法将不胜感激。

0 投票
0 回答
80 浏览

indexing - solr.Solr Mapping Reader 后索引停止

我正在尝试通过以下命令索引我的 Nuch 爬网数据:

我没有收到任何错误,但是当我运行它时,几秒钟后它结束并且没有索引。这是我的日志:

有什么想法,我该如何解决这个问题并让它索引我的数据?该 URL 用于 Bluemix Retrieve and Rank Service,但它是在 Apache Solr 之上构建的,所以我猜只要我的 Nutch 和 Solr 的 Schema 匹配,我就可以使用它。正确的?