问题标签 [document-conversion]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
640 浏览

ruby - Ruby:从 docx 文件中解析/提取图像和对象

我正在尝试使用 Ruby 打开和读取 .docx 文件,并提取部分文本和对象/图像并保存到另一个(非 .docx)文件中。

使用 Nokogiri,我能够正确提取文本并将文档划分为我想要的部分:

如果我这样做:

我可以将 xml 中的对象视为:

但不确定如何将其转换为以后可用于在 html 中显示的内容。转换为 svg 以便它可以与 html 中的文本一起显示将是理想的。

谢谢你的帮助。

0 投票
1 回答
1536 浏览

c# - 将 PDF 转换为 EPub

我正在创建一个将 HTML 页面转换为ePub格式的应用程序。我尝试将文件转换为 PDF,因为我需要目录作为 ePub 文件的第一页。为此,我使用了 Spire PDF 和 Spire DOC。为了转换为 ePub,我参考了许多网站,发现我们无法将其直接转换为ePub. 所以我尝试转换为doc然后从docto ePub。这是代码。

PDF转Word

Word 到 ePub

但我没有得到可点击的目录,也没有得到所需的格式。有没有直接从 PDF 转换为 ePub 的直接方法?

0 投票
1 回答
8501 浏览

rstudio - 将 pandoc 从 1.19 更新到 2.4 后,R markdown pandoc 文档转换失败,错误 1

我最近在 Windows 上安装了 pandoc 2.4,转换失败,所有编织都出现错误 1。我不会编织 html、word 和 pdf。错误说



即使是原始的基本模板 rmd 文件也会发生这种情况。我正在使用没有互联网连接和有限写入权限的封闭网络。以前我能够编织位于文档文件夹中的 rmd 文件,在同一位置生成输出。

sessionInfo() 说



任何建议将不胜感激。(或者甚至如何在不删除 2.4 版本的情况下将设置更改回旧 pandoc 版本。)

0 投票
1 回答
204 浏览

node.js - 将 adobe inDesign 转换为 pptx(甚至可能吗?)

我正在努力寻找解决方案。我有大量 Adob​​e inDesign 文件正在尝试转换为 PDF

我知道您可以导出到 inDesign -> PDF,然后从 Acrobat PDF -> PPTX。如果它只有一两个文件,这将很有效。我不想一遍又一遍地这样做。我试过使用pdf-powerpoint唯一的问题是将每张幻灯片导出为 PNG。我仍然希望能够在之后编辑它们。我已经看到可以使用 javascript 来自动化 Adob​​e 产品,但是在梳理了他们的文档之后,我不确定是否可以将数据通过管道传输到其他 Adob​​e 产品中。有什么建议么?

0 投票
1 回答
294 浏览

python - 如何使用python3将docx转换为pdf?

我想显示用户上传的文件的预览。出于这个原因,我必须使用 python 3.7 将 docx 文件转换为 pdf。

在寻找图书馆来完成这项工作时,我发现了以下内容:

  • pdfminer,但它只支持 python 2.7
  • comtypes,但它是仅适用于 Windows 的库

还有其他选择吗?

0 投票
1 回答
44 浏览

c# - c# Word-AddIn 将 activeDocument 转换为虚拟 PDF 并将它们合并为一个 PDF 文档

我正在创建多个虚拟文档,然后我想将它们合并到一个 PDF 中,而不是将它们保存在某个地方。我现在找到的只是指南,他们在其中将文档保存为 PDF,然后他们阅读 PDF 以将它们合并为一个。

还应该可以合并多个 PDF,而不仅仅是两个。

0 投票
0 回答
383 浏览

java - 如何在服务器中运行 Openoffice 并从我的本地系统执行转换

我有一个要求,我需要在独立服务器中使用 openoffice 并使用 Java 程序进行文档转换。

现在,我有一个设置,我使用以下命令在我的 linux 环境中启动了 openoffice

sudo -H /opt/openoffice4/program/soffice '-accept=socket,host=localhost,port=8080;urp;StarOffice.ServiceManager' -nologo -headless -nofirststartwizard

根据我的理解,上面的代码启动了 openoffice 并监听了 8080 端口。

现在我的代码使用 JODConverter 在我的 java 程序和 openoffice 之间创建连接,并执行 DOC 到 PDF 等格式之间的转换。

最初,我尝试将 java 程序放在运行 openoffice 的 linux 服务器中。它工作正常,并且正在发生转换。

我正在使用的进口如下

连接是通过下面的行发生的。

转换是通过使用以下代码行完成的。

现在我试图通过将代码放在我的本地系统中并在服务器中运行 openoffice 来实现相同的目标。通过这种方式,我们尝试消除在运行代码的机器上安装 openoffice 的依赖性。

我已修改此行以建立连接,并且能够在本地运行的 Java 程序和服务器中的 OpenOffice 之间建立连接。

但是我在该行的 OpenOfficeDocumentConverter jar 中得到了以下异常 converter.convert(inputFile, inFormat, outputFile, outputFormat);

应该怎么做才能解决这个问题?
有没有其他方法可以实现这一目标?

0 投票
1 回答
395 浏览

python-3.x - 无法在 Pypandoc 中读取文件

我正在尝试使用 Pandoc 将 pdf 转换为 html。我已经安装了 pandoc binary ,添加了环境变量路径,然后使用

它给了我一个错误:

我错过了什么?

0 投票
1 回答
28 浏览

tiff - 使用 Universal Document Converter 6.7 和 6.8 版本创建的黑白 1200dpi LZW 测试文件的 Tiff 输出不符合预期

尊敬的先生/女士,

我对使用“UDC 驱动程序 6.7/6.8 版本”创建 LZW BW 1200dpi tiff 文件有疑问。

如果我们禁用“执行高质量平滑”,则输出数据在输出文件中不可见。

如果我们启用此选项,它工作正常。

此外,UDC 驱动程序 6.4 的启用/禁用“执行高质量平滑”都可以正常工作。

我们在我们的软件中使用以下 tiff 库版本。

/* 包的版本号 */ #define VERSION "4.0.3"

您能否澄清我们的以下疑问。

https://www.print-driver.com/overview/version-history

此致,

香塔拉