ibm-watson - 为 Watson Retrieve & Rank 正确格式化数据

Question

谢谢你的时间。

我想知道您对格式化特定数据以上传到 Watson Retrieve and Rank 的最佳实践的看法。

I am building a service for answering questions about municipal laws and ordinances to help educate newly elected officials in resource/network poor rural areas.

这是我面临的难题：

假设我服务的地区有 200 个城镇。每个城镇都有相似但不同的法令和法规。每个向系统提出问题的人都会就他们试图完成的任务提出“相对”相似的问题。但是，答案会因城镇而异。

各个城镇的 IE 分区法规将相似，但检索错误城镇的条例将完全无用，尽管相当接近。

“超人前传的挫折条例是什么？” 可能会拉起任何城镇挫折条例或仅与超人前传相关的东西，但不是他们的挫折条例。

我有所有详细说明所需法令和法规的文件。我只是在寻找一些关于如何构建它以确保人们获得准确数据的建议。

我应该为每个城镇的文件集创建一个单独的集群吗？我应该把所有东西都放在一起，然后严格训练以提高准确性，还是有另一条我没有想到的路径。

再次感谢，

马特

score 1 · Accepted Answer

这只是对您找到解决方案的一点帮助。

假设您有许多问题映射到单个回答文档，这表明这里的用例可能非常适合自然语言分类器或 NLC 和检索和排名 (RnR) 的某种组合。

我真的建议您看一下 Medium 中的这篇文章：

第 I 部分- 使用 IBM Watson Retrieve and Rank 进行开发：Solr 配置
第 II 部分- 使用 IBM Watson Retrieve and Rank 进行开发：培训和评估
第 III 部分- 使用 IBM Watson 检索和排名进行开发：自定义功能（对您的问题很重要）。

参考链接：

请参阅有关在 RnR 中准备训练数据的官方文档
有关使用 NLC，请参阅官方文档。

ibm-watson - 为 Watson Retrieve & Rank 正确格式化数据

1 回答 1

Related

Reference