问题标签 [document-conversion]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
53 浏览

python - documentconversionV1() 的部分响应

我正在尝试在 python 上使用 watson_developer_cloud API 的 DocumentConversionV1 函数,但是在我的情况下,响应仅为“<”Response 200">“。

0 投票
1 回答
83 浏览

ibm-cloud - 为什么我在尝试使用 IBM Bluemix Document Conversion 服务时会收到“Could not push back”错误?

我正在尝试使用带有 Node.js 应用程序的 Bluemix Document Conversion 服务来转换文档。我的应用程序中除了错误什么都没有,但是我使用的测试文档使用演示页面转换得很好。下面是一个演示该问题的最小应用程序(请注意,虽然此应用程序正在从磁盘转换 PDF,但“真正的”应用程序不能这样做,因此是 Buffer 对象)。

针对测试 PDF (782K) 运行此程序的结果是:

谁能告诉我

  1. 如何摆脱警告信息
  2. 为什么文档没有被转换
  3. 如何“增加推回缓冲区”

其他文件给出了不同的错误,但我希望如果我能让这个工作正常,那么其他错误也会消失。

0 投票
0 回答
594 浏览

ibm-cloud - 尝试在 IBM 文档转换服务中转换 PDF 时收到“字符串索引超出范围:0”

我正在尝试使用 IBM 的文档转换服务转换文档。它是一个基本的 PDF,116 页,1.1MB 文件。我看不出它有什么特别之处,但是当我尝试转换它时,DC 服务会返回错误“ String index out of range: 0 ”。FWIW,该文档是IBM Backup and Restore Manager for z/VM User's Guide。我已经毫无问题地转换了许多其他 PDF,但是这个和另外两个给了我这个错误。

谁能告诉我为什么会这样?

0 投票
1 回答
167 浏览

ibm-cloud - IBM 文档转换服务的速率限制是多少?如何提高它?

我们使用 IBM 的Document Conversion服务作为我们基于 Watson 的 AI 系统的核心部分。最近我在构建我们的语料库时遇到了很多这样的错误:

访问https://158.85.132.88:443/document-conversion/api/v1/convert_document?version=2015-12-15时发生错误 SLM-THROTTLE ,Tran-Id: gateway-dp01-416345942 - 您已达到请求限速,请稍候再试

谁能告诉我限制是什么,可以增加吗?

0 投票
1 回答
68 浏览

ibm-watson - PDF 表单(例如 w2/1040/etc)的文档转换作为键/值,而不是基于字体信息的单个字符串

尝试使用文档转换服务来捕获 pdf 文档的 json 键/值对,例如(w2/1040/etc 表单。)

json 响应中此类表单的内容将作为“内容”下的“文本”的一部分出现。缺少表单数据,但主要将表单标签呈现为单个字符串。

我想知道是否有办法将pdf(w2/1040/etc)的表单数据捕获为json中的键/值而不是单个字符串?

谢谢。

0 投票
1 回答
133 浏览

python - IBM Watson 文档转换不起作用

我最近实现了 IBM Watson 的文档转换 API。我总是在转换 pdf 文档时遇到编码错误!!!

在此处输入图像描述

0 投票
1 回答
178 浏览

php - 即使我摄取了 PDF,IBM Watson Document Conversion 也会响应 415 错误?

我有一个 html 表单,允许用户上传文件,然后使用 IBM Watson 的文档转换 API 将文档文本转换为规范化文本,然后将其插入数据库。

经过测试,我多次收到以下错误:

{ "code" : 415, "error" : "不支持输入文档的媒体类型 [text/plain]。已尝试自动更正,但也不支持自动检测到的媒体类型 [text/plain]。支持媒体类型为:application/msword、application/vnd.openxmlformats-officedocument.wordprocessingml.document、application/pdf、text/html、application/xhtml+xml。" }

这是我的表格(testform.html):

这是我的 php 脚本(testform.php):

通常 $response 变量将包含转换后的文本,但即使我只上传 PDF,除了上面提到的 415 错误,我什么也没得到。

关于为什么它不起作用的任何想法?

0 投票
1 回答
81 浏览

pdf - 在 Salesforce 中将 pdf 传递给 IBM watson 时出现“415:不支持媒体”错误

我计划将 IBM Watson Document Conversion 服务与 Salesforce 集成。

从那里我无法将我的 pdf 文件直接发送给 Watson,我得到了Media Type not supported.

我也收到此错误:

这是我正在使用的代码:

0 投票
1 回答
420 浏览

pdf - 我需要将 DOC/TXT 文件大批量转换为 PDF

我们正在更改系统,新系统仅输出 .DOC 或 .TXT 文件用于报告。出现的一些报告需要转换为 PDF,以便我们的网络用户每天都可以使用它们。目前我正在测试大约 1500 份报告,在系统准备好之前,我需要支持至少 10 种类型的报告,每种报告都可能有这 1500 种左右的转换。

到目前为止,我还没有找到有效转换这么多报告的方法。部分问题是必须将报告转换为特定大小的 PDF 才能轻松阅读。我已经测试了一些软件解决方案,但到目前为止我还没有找到解决方案。

我真的很喜欢Batch Document Converter Pro。我们以前使用过这家公司的软件,它可以很好地满足需求。每当我尝试它时,它都会给出错误

转换问题:word 到 pdf,检查 word 2007 或更高版本是否已安装并且 Office 2007 的 MS PDF 插件包

我尝试在机器上安装不同版本的 Office(包括 2007)并安装了插件包,没有任何变化。

0 投票
1 回答
652 浏览

watson - 使用 Watson Document Conversion Service 拆分复杂的 PDF 文件

我们正在使用 Watson Discovery Service (WDS) 实施问答系统。我们要求在单个文档中提供每个答案单元。我们有复杂的 PDF 文件作为语料库。PDF 文件包含两列数据、表格和图像。取而代之的是,将整个 PDF 文件作为语料库提取到 WDS 并使用段落检索,我们使用 Watson Document Conversion Service (WDC) 将每个 PDF 文件拆分为答案单元,然后我们将那里的答案单元提取到 WDS 中。

我们在使用 Watson Document Conversion 服务进行复杂的 PDF 拆分时面临两个问题。

  1. 我们期望每个标题作为标题,相应的文本作为数据(答案)。但是,它将每章拆分为单个答案单元。有没有办法根据标题拆分两列文档?
  2. 如果输入的 PDF 文件包含表格,则文档转换服务会将 PDF 文件中可用的结构化数据读取为简单文本(缺少表格格式)。有没有办法从 PDF 读取结构化数据以回答单元?