问题标签 [document-conversion]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何使用 apache poi 将 .docx 转换为 .doc
我需要知道如何转换.docx
为.doc
using apache poi
,也许 using XWPFDocument
,HWPFDocument
类,如果无法实现,请提供替代解决方案。
python - 将文档转换为 pdf 格式的有效方法
我一直在尝试找到将文档(例如 doc、docx、ppt、pptx)转换为 pdf 的有效方法。到目前为止,我已经尝试过docsplit和oowriter
,但两者都花费了 10 秒以上的时间来完成大小为 1.7MB的pptx 文件的工作。有人可以建议我更好的方法或建议来改进我的方法吗?
我试过的:
输出:
环境:
- Linux - Ubuntu 12.04
- Python 2.7.3
更多工具结果:
- jodconverter耗时 11.32 秒
java - 将pdf文件转换为docx文件后格式丢失
我正在使用以下代码使用以下代码片段将 PDF 文件转换为 MS Word 文档。
但是所有格式都在生成的文档中丢失。谁能建议我保留原始文本格式的方式。
libreoffice - Libreoffice 转换为不工作
我正在尝试将文档从 html、txt 转换为 pdf、odt,反之亦然。但似乎只有 odt 到 pdf 有效。。没有其他文件格式被转换
这是我的命令
php - 哪个 PHP API 或库最适合从 HTML 转换为 PDF 和 DOCX?
首先,我尝试使用 Cloudconvert。它可以在这么多的文件类型之间进行转换,但它的 PHP API 几乎总是会导致内存泄漏。
我尝试的第二个是 Pdfcrowd。它工作得很好,但它只能将 HTML 转换为 PDF。
我尝试的第三个是 Pdfaid。它也可以完美运行,但它只能将 PDF 转换为 DOCX。
但是第二个和第三个有转换限制(Pdfaid 每个 API key 只有 20 次转换),可以通过付费扩展。
你有使用其他一些 PHP API 或库的经验吗?
image - 将大量 .pdf 文件转换为 .html 或 .doc
我正在寻找能够同时将大量(数千).pdf 转换为 .html 或 .doc 的代码片段或其他解决方案:
- 维护标题的层次结构
- 捕获文档中的图像,将它们上传到图像服务器并创建指向它的绝对链接,并维护表格格式。
是否存在这样的工具,如果存在,是谁制造的?如果不是,我可以与哪些领域的思想领袖联系?
perl - 从 perl 脚本调用 unoconv 时设备的 ioctl 不合适
每次收到指定域的电子邮件时,我都会从 postfix 电子邮件服务器触发 perl 脚本。perl 脚本基本上是提取所有附件,然后调用 unoconv 将附件转换为 PDF 格式。
我目前正在使用带有相同附件的相同电子邮件测试脚本,并且我看到了随机行为。有时所有附件都会被转换,有时我在调用 unoconv 命令时收到错误“设备的 ioctl 不合适”错误,例如:
看起来像一些赛车条件问题或类似问题。可能是什么问题?
更新:问题似乎是 unoconv 有时会以浮点异常退出,但是文档已成功转换(我可以在 PDF 查看器中打开它)。这里是出现错误的函数的代码。现在的问题是在这种情况下如何进行。
java - Apache commons IO 如何将我的 XML 标头从 UTF-8 转换为 UTF-16?
我正在使用 Java 6。我有一个 XML 模板,它的开头是这样的
但是,我注意到当我使用以下代码(使用 Apache Commons-io 2.4)解析和输出它时……</p>
第一行输出为
解析/输出文件时我需要做什么才能使标头编码保持“UTF-8”?
编辑:根据给出的建议,我将代码更改为
但是尽管我的输入元素模板文件的第一行是
当我将文档输出为它产生的字符串时
作为第一行。这是我用来将“doc”对象输出为字符串的方法...
pdf - 使用 unoconv 将奇怪的字符翻译从 docx/doc 转换为 pdf
我正在使用 unoconv ( https://github.com/dagwieers/unoconv ) 将 DOCX 和 DOC 文件转换为 PDF,但在 PDF 中呈现某些字符时,它们通常会得到奇怪的结果。
一个特殊的问题是奇怪地翻译数字,例如,部分标签:
第 2.3 节(http://note.io/1Q33RX6)
Get变成了罗马数字:
第 II.3 节(http://note.io/1b6MDs5)
我感觉这与安装的字符集有关,但不知道如何调试它。
该问题的设置是一个 Django 应用程序调用一个 unix shell 脚本来转换磁盘上的文档。
java - LibreOffice(4.4.3) 某些 MSWords 文档的无头 PDF 转换问题
我能够在 Windows 上将大多数 word 文档(doc 和 docx)转换为 PDF。
但是一些文档没有得到转换,我看到生成了以下中间文件
没有错误或警告。不知道如何解决这个问题。对 LibreOffice 的任何建议或替代解决方案。我打算在服务器上将文档转换为 pdf。