问题标签 [document-conversion]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
148 浏览

ibm-cloud - 在 node-red 中使用带有 html 的文档转换时,出现错误:丢失与服务器的连接

尝试使用来自 Node-Red 的 Watson Document Conversion 服务和以下有效负载设置并输入“Convert”节点,它总是返回"Error: Lost connect to server"。我认为按照文档的设置是正确的,但很难找到使它起作用的方法。

有人可以为此提供帮助/建议吗?非常感谢您!

以下是来自命令“cf logs”的信息:

0 投票
1 回答
70 浏览

c# - 如何处理从 DocX 和其他文件格式到特定 XSD 的文档转换?

我们正在尝试将 .docx(以及后来的其他潜在文件格式)转换为一种标准 XML。该 XML 将通过 XSLT 映射到我们选择的 XML (xsd)。

为了使转换成功,我们需要在文档中保留尽可能多的信息元素。最重要的是文档中的结构、内容、表格、列表和图形(图像等)。

我们已经意识到,获得一份这份工作很复杂的文件,并且我们可以支持什么样的文件有严格的限制。

由于存在不同的标准,因此为每个标准实施转换器将需要时间。

有没有人有一些将文档转换为 XML 的经验?关于如何进行的任何提示?

0 投票
1 回答
75 浏览

ibm-watson - IBM Watson Document Conversion 是否忽略标题?

我们正在尝试对 Word 文档使用 IBM Watson文档转换服务,并注意到文档转换服务不返回标题中的文本(并在查看 doc 文件时显示)。这是一个已知的问题?

0 投票
2 回答
118 浏览

ibm-watson - Watson Document Conversion 服务返回的答案单元内容数组是否可以包含多个元素?

我正在编写一个程序,该程序利用 IBM Watson 的文档转换服务将各种类型的文档转换为答案单元。服务返回的每个答案单元都包含一个名为content的数组,该数组由具有media_type文本元素的对象组成。

我从来没有在这个内容数组中看到过一个以上的元素,如果有的话,我不确定如何处理它们。这个数组中是否可以有多个元素,如果有,可能的值是多少?它们都具有相同的media_type值吗?我目前的计划是如果存在多个文本元素,则将所有文本元素合并为一个。

0 投票
1 回答
121 浏览

ibm-watson - 文档转换代码 400

当我执行此命令时:

我收到这条消息:

我已经使用了这个命令,但现在我收到了这个错误消息。

0 投票
1 回答
84 浏览

ibm-cloud - 从 Watson 的 Document Conversion 服务获取可用结果时遇到问题

当我尝试转换此文档时

https://public.dhe.ibm.com/common/ssi/ecm/po/en/poq12347usen/POQ12347USEN.PDF

使用 Watson 的文档转换服务,我得到的只是四个答案单元,每个 4 级标题一个。我真正需要的是 47 个答案单元,每个 FAQ 问题一个。我怎样才能做到这一点?

0 投票
1 回答
89 浏览

ibm-cloud - 从 Watson 的文档转换服务中得到一个奇怪的错误

我正在尝试使用 Node.js 中的 watson-developer-cloud Javascript 库,使用 Watson 的文档转换服务将一些文档转换为答案单元。某些(IBM 内部链接中的示例是 .DOCX 文件)返回此错误:

错误:代码:400 错误:提供的数据似乎在 Office 2007+ XML 中。您正在调用处理 OLE2 Office 文档的 POI 部分。您需要调用 POI 的不同部分来处理此数据(例如 XSSF 而不是 HSSF)

如果我尝试通过文档转换演示站点进行转换,它似乎可以正确转换。我的程序从源下载文件,将其写入磁盘,然后通过上述库将其上传到文档转换服务。

有没有办法解决这个错误?考虑到这种转换是数千个文档的大规模自动转换的一部分,因此对这些异常值进行手动处理是不可能的。

0 投票
0 回答
201 浏览

ibm-watson - IBM Watson 文档转换根本不工作

我们最近实现了 IBM Watson 的文档转换 API。即使我们指定了文档类型,我们也总是会收到错误:

我们正在尝试将 PDF 转换为纯文本。甚至来自 IBM 的示例 PDF 也不适合我们。

0 投票
1 回答
165 浏览

ibm-cloud - 如何在 Retrieve 和 Rank 上将大型文档分解为较小的答案单元?

我对检索和排名以及文档转换服务仍然很陌生,所以我最近一直在玩这个。

我遇到了一个问题,当我上传大型文档(100 多页)时,检索和排名会帮助我自动将其分解为答案单元,这非常有用。

但是,有些问题只需要大块答案单元中的一条小线,有没有一种方法可以手动进一步分解检索和排名服务提供给我的答案单元?

我听说你可以通过 JavaScript 做到这一点,但有没有办法通过 UI 做到这一点?

我正在考虑手动将庞大的文档分解为多个较小的文档,但这可能会导致 100 多个文档——这可能是我最后的选择。

非常感谢任何帮助或建议!

谢谢你们!

0 投票
2 回答
47 浏览

curl - 如何在 watson 的文档转换中使用 webfiles

我们最近实现了来自 IBM Watson 的文档转换 API。我可以使用 Web 文件 (www.something.com) 作为输入。

curl -X POST -u "username":"password" -F config="{\"conversion_target\":\"answer_units\"}" -F "file=@www.something.com/readme.html;type=text/html" "https://gateway.watsonplatform.net/document-conversion/api/v1/convert_document?version=2015-12-15"