问题标签 [document-conversion]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

69 问题

0 投票

1 回答

3372 浏览

java - 如何使用 apache poi 将 .docx 转换为 .doc

我需要知道如何转换.docx为.docusing apache poi，也许 using XWPFDocument，HWPFDocument类，如果无法实现，请提供替代解决方案。

java ms-word .doc document-conversion

2013-12-10T01:16:58.673

0 投票

4 回答

17365 浏览

python - 将文档转换为 pdf 格式的有效方法

我一直在尝试找到将文档（例如 doc、docx、ppt、pptx）转换为 pdf 的有效方法。到目前为止，我已经尝试过docsplit和oowriter，但两者都花费了 10 秒以上的时间来完成大小为 1.7MB的pptx 文件的工作。有人可以建议我更好的方法或建议来改进我的方法吗？

我试过的：

输出：

环境：

Linux - Ubuntu 12.04
Python 2.7.3

更多工具结果：

jodconverter耗时 11.32 秒

python pdf ubuntu document-conversion docsplit

2014-01-02T21:00:44.267

0 投票

0 回答

918 浏览

java - 将pdf文件转换为docx文件后格式丢失

我正在使用以下代码使用以下代码片段将 PDF 文件转换为 MS Word 文档。

但是所有格式都在生成的文档中丢失。谁能建议我保留原始文本格式的方式。

java apache-poi document-conversion

2014-02-20T10:30:26.613

0 投票

10 回答

34409 浏览

libreoffice - Libreoffice 转换为不工作

我正在尝试将文档从 html、txt 转换为 pdf、odt，反之亦然。但似乎只有 odt 到 pdf 有效。。没有其他文件格式被转换

这是我的命令

libreoffice headless document-conversion

2014-02-27T08:30:44.513

0 投票

4 回答

5628 浏览

php - 哪个 PHP API 或库最适合从 HTML 转换为 PDF 和 DOCX？

首先，我尝试使用 Cloudconvert。它可以在这么多的文件类型之间进行转换，但它的 PHP API 几乎总是会导致内存泄漏。

我尝试的第二个是 Pdfcrowd。它工作得很好，但它只能将 HTML 转换为 PDF。

我尝试的第三个是 Pdfaid。它也可以完美运行，但它只能将 PDF 转换为 DOCX。

但是第二个和第三个有转换限制（Pdfaid 每个 API key 只有 20 次转换），可以通过付费扩展。

你有使用其他一些 PHP API 或库的经验吗？

php html pdf docx document-conversion

2014-05-11T15:09:55.050

0 投票

1 回答

36 浏览

image - 将大量 .pdf 文件转换为 .html 或 .doc

我正在寻找能够同时将大量（数千）.pdf 转换为 .html 或 .doc 的代码片段或其他解决方案：

维护标题的层次结构
捕获文档中的图像，将它们上传到图像服务器并创建指向它的绝对链接，并维护表格格式。

是否存在这样的工具，如果存在，是谁制造的？如果不是，我可以与哪些领域的思想领袖联系？

image image-conversion document-conversion

2014-12-31T16:26:14.463

0 投票

1 回答

200 浏览

perl - 从 perl 脚本调用 unoconv 时设备的 ioctl 不合适

每次收到指定域的电子邮件时，我都会从 postfix 电子邮件服务器触发 perl 脚本。perl 脚本基本上是提取所有附件，然后调用 unoconv 将附件转换为 PDF 格式。

我目前正在使用带有相同附件的相同电子邮件测试脚本，并且我看到了随机行为。有时所有附件都会被转换，有时我在调用 unoconv 命令时收到错误“设备的 ioctl 不合适”错误，例如：

看起来像一些赛车条件问题或类似问题。可能是什么问题？

更新：问题似乎是 unoconv 有时会以浮点异常退出，但是文档已成功转换（我可以在 PDF 查看器中打开它）。这里是出现错误的函数的代码。现在的问题是在这种情况下如何进行。

perl postfix-mta document-conversion

2015-01-26T10:38:28.737

0 投票

2 回答

799 浏览

java - Apache commons IO 如何将我的 XML 标头从 UTF-8 转换为 UTF-16？

我正在使用 Java 6。我有一个 XML 模板，它的开头是这样的

但是，我注意到当我使用以下代码（使用 Apache Commons-io 2.4）解析和输出它时……</p>

第一行输出为

解析/输出文件时我需要做什么才能使标头编码保持“UTF-8”？

编辑：根据给出的建议，我将代码更改为

但是尽管我的输入元素模板文件的第一行是

当我将文档输出为它产生的字符串时

作为第一行。这是我用来将“doc”对象输出为字符串的方法...

java utf-8 apache-commons utf-16 document-conversion

2015-02-16T17:04:58.603

0 投票

1 回答

536 浏览

pdf - 使用 unoconv 将奇怪的字符翻译从 docx/doc 转换为 pdf

我正在使用 unoconv ( https://github.com/dagwieers/unoconv ) 将 DOCX 和 DOC 文件转换为 PDF，但在 PDF 中呈现某些字符时，它们通常会得到奇怪的结果。

一个特殊的问题是奇怪地翻译数字，例如，部分标签：

第 2.3 节（http://note.io/1Q33RX6）

Get变成了罗马数字：

第 II.3 节（http://note.io/1b6MDs5）

我感觉这与安装的字符集有关，但不知道如何调试它。

该问题的设置是一个 Django 应用程序调用一个 unix shell 脚本来转换磁盘上的文档。

pdf docx doc document-conversion

2015-04-18T23:04:20.360

0 投票

0 回答

469 浏览

java - LibreOffice(4.4.3) 某些 MSWords 文档的无头 PDF 转换问题

我能够在 Windows 上将大多数 word 文档（doc 和 docx）转换为 PDF。

但是一些文档没有得到转换，我看到生成了以下中间文件

没有错误或警告。不知道如何解决这个问题。对 LibreOffice 的任何建议或替代解决方案。我打算在服务器上将文档转换为 pdf。

java pdf libreoffice headless document-conversion

2015-06-30T23:44:18.177

1 2 3 4 5 6 7 8 9 10