0

谢谢你的时间。

我想知道您对格式化特定数据以上传到 Watson Retrieve and Rank 的最佳实践的看法。

I am building a service for answering questions about municipal laws and ordinances to help educate newly elected officials in resource/network poor rural areas.

这是我面临的难题:

假设我服务的地区有 200 个城镇。每个城镇都有相似但不同的法令和法规。每个向系统提出问题的人都会就他们试图完成的任务提出“相对”相似的问题。但是,答案会因城镇而异。

各个城镇的 IE 分区法规将相似,但检索错误城镇的条例将完全无用,尽管相当接近。

“超人前传的挫折条例是什么?” 可能会拉起任何城镇挫折条例或仅与超人前传相关的东西,但不是他们的挫折条例。

我有所有详细说明所需法令和法规的文件。我只是在寻找一些关于如何构建它以确保人们获得准确数据的建议。

我应该为每个城镇的文件集创建一个单独的集群吗?我应该把所有东西都放在一起,然后严格训练以提高准确性,还是有另一条我没有想到的路径。

再次感谢,

马特

4

1 回答 1

1

这只是对您找到解决方案的一点帮助。

假设您有许多问题映射到单个回答文档,这表明这里的用例可能非常适合自然语言分类器或 NLC 和检索和排名 (RnR) 的某种组合。

我真的建议您看一下 Medium 中的这篇文章:

  • 第 I 部分- 使用 IBM Watson Retrieve and Rank 进行开发:Solr 配置

  • 第 II 部分- 使用 IBM Watson Retrieve and Rank 进行开发:培训和评估

  • 第 III 部分- 使用 IBM Watson 检索和排名进行开发:自定义功能(对您的问题很重要)。

参考链接:

  • 请参阅有关在 RnR 中准备训练数据的官方文档
  • 有关使用 NLC,请参阅官方文档。
于 2017-09-13T18:55:58.563 回答