1

我想知道为 Retrieve 和 Rank Web 界面文档上传器格式化 .DOC 文档的最佳方式是什么,以便它处理最好的答案拆分。(我正在使用https://watson-retrieve-and-rank.ng.bluemix.net

我们必须创建一组文档,但我找不到任何关于如何重新格式化它们的指南(例如,如果任何文本大小、粗体、... 标题、答案正文等)将提高自动化答案分裂。创建这些文档的团队无法以正确的 JSON 格式准备它们,并且某些 DOC 文件被服务解析为一页答案而没有任何拆分

当然,也许我还缺少另一个工具来完成这项任务。

感谢您提供任何经验或链接。

4

1 回答 1

3

详细文档位于https://www.ibm.com/watson/developercloud/doc/document-conversion/customizing.shtml#htmlau,因为该工具使用 Document Conversion 服务的默认设置。

但是,总而言之,该工具将在使用样式名称为“标题 N”的段落中拆分 Word 文档,其中“N”是一个数字。

所以这包括了 MS Word 中现有的默认内置样式(即“标题 1”、“标题 2”、“标题 3”、“标题 4”、“标题 5”、“标题 6”、“标题 7”、 “标题 8”、“标题 9”)。它还包括您使用这样的名称创建的样式(例如“标题 123”)

于 2016-08-01T12:34:34.627 回答