问题标签 [document-conversion]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3372 浏览

java - 如何使用 apache poi 将 .docx 转换为 .doc

我需要知道如何转换.docx.docusing apache poi,也许 using XWPFDocumentHWPFDocument类,如果无法实现,请提供替代解决方案。

0 投票
4 回答
17365 浏览

python - 将文档转换为 pdf 格式的有效方法

我一直在尝试找到将文档(例如 doc、docx、ppt、pptx)转换为 pdf 的有效方法。到目前为止,我已经尝试过docsplitoowriter,但两者都花费了 10 秒以上的时间来完成大小为 1.7MB的pptx 文件的工作。有人可以建议我更好的方法或建议来改进我的方法吗?

我试过的:

输出:

环境:

  • Linux - Ubuntu 12.04
  • Python 2.7.3

更多工具结果:

0 投票
0 回答
918 浏览

java - 将pdf文件转换为docx文件后格式丢失

我正在使用以下代码使用以下代码片段将 PDF 文件转换为 MS Word 文档。

但是所有格式都在生成的文档中丢失。谁能建议我保留原始文本格式的方式。

0 投票
10 回答
34409 浏览

libreoffice - Libreoffice 转换为不工作

我正在尝试将文档从 html、txt 转换为 pdf、odt,反之亦然。但似乎只有 odt 到 pdf 有效。。没有其他文件格式被转换

这是我的命令

0 投票
4 回答
5628 浏览

php - 哪个 PHP API 或库最适合从 HTML 转换为 PDF 和 DOCX?

首先,我尝试使用 Cloudconvert。它可以在这么多的文件类型之间进行转换,但它的 PHP API 几乎总是会导致内存泄漏。

我尝试的第二个是 Pdfcrowd。它工作得很好,但它只能将 HTML 转换为 PDF。

我尝试的第三个是 Pdfaid。它也可以完美运行,但它只能将 PDF 转换为 DOCX。

但是第二个和第三个有转换限制(Pdfaid 每个 API key 只有 20 次转换),可以通过付费扩展。

你有使用其他一些 PHP API 或库的经验吗?

0 投票
1 回答
36 浏览

image - 将大量 .pdf 文件转换为 .html 或 .doc

我正在寻找能够同时将大量(数千).pdf 转换为 .html 或 .doc 的代码片段或其他解决方案:

  • 维护标题的层次结构
  • 捕获文档中的图像,将它们上传到图像服务器并创建指向它的绝对链接,并维护表格格式。

是否存在这样的工具,如果存在,是谁制造的?如果不是,我可以与哪些领域的思想领袖联系?

0 投票
1 回答
200 浏览

perl - 从 perl 脚本调用 unoconv 时设备的 ioctl 不合适

每次收到指定域的电子邮件时,我都会从 postfix 电子邮件服务器触发 perl 脚本。perl 脚本基本上是提取所有附件,然后调用 unoconv 将附件转换为 PDF 格式。

我目前正在使用带有相同附件的相同电子邮件测试脚本,并且我看到了随机行为。有时所有附件都会被转换,有时我在调用 unoconv 命令时收到错误“设备的 ioctl 不合适”错误,例如:

看起来像一些赛车条件问题或类似问题。可能是什么问题?

更新:问题似乎是 unoconv 有时会以浮点异常退出,但是文档已成功转换(我可以在 PDF 查看器中打开它)。这里是出现错误的函数的代码。现在的问题是在这种情况下如何进行。

0 投票
2 回答
799 浏览

java - Apache commons IO 如何将我的 XML 标头从 UTF-8 转换为 UTF-16?

我正在使用 Java 6。我有一个 XML 模板,它的开头是这样的

但是,我注意到当我使用以下代码(使用 Apache Commons-io 2.4)解析和输出它时……</p>

第一行输出为

解析/输出文件时我需要做什么才能使标头编码保持“UTF-8”?

编辑:根据给出的建议,我将代码更改为

但是尽管我的输入元素模板文件的第一行是

当我将文档输出为它产生的字符串时

作为第一行。这是我用来将“doc”对象输出为字符串的方法...

0 投票
1 回答
536 浏览

pdf - 使用 unoconv 将奇怪的字符翻译从 docx/doc 转换为 pdf

我正在使用 unoconv ( https://github.com/dagwieers/unoconv ) 将 DOCX 和 DOC 文件转换为 PDF,但在 PDF 中呈现某些字符时,它们通常会得到奇怪的结果。

一个特殊的问题是奇怪地翻译数字,例如,部分标签:

第 2.3 节(http://note.io/1Q33RX6

Get变成了罗马数字:

第 II.3 节(http://note.io/1b6MDs5

我感觉这与安装的字符集有关,但不知道如何调试它。

该问题的设置是一个 Django 应用程序调用一个 unix shell 脚本来转换磁盘上的文档。

0 投票
0 回答
469 浏览

java - LibreOffice(4.4.3) 某些 MSWords 文档的无头 PDF 转换问题

我能够在 Windows 上将大多数 word 文档(doc 和 docx)转换为 PDF。

但是一些文档没有得到转换,我看到生成了以下中间文件

没有错误或警告。不知道如何解决这个问题。对 LibreOffice 的任何建议或替代解决方案。我打算在服务器上将文档转换为 pdf。