问题标签 [pypandoc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
2193 浏览

python - 使用 pypandoc 将 html 表转换为 docx 文件

Pandoc 不能很好地将 HTML 表格呈现到 docx 文档中。我得到一个请求的内容,我使用一个模板文件来渲染它。然后我像这样使用pypandoc:

template.html 包含一个表格。在 docx 文件中,我得到一个表格,其内容在下面分开。是否有额外的参数需要考虑来解决这个问题?或者 pandoc 转换还不支持好表?有任何功能示例吗?也许有更简单的方法来做到这一点?


编辑 1

我提供更简洁的例子。这是一个测试python片段:

我打开html文件:

并获得以下 html 页面:

在此处输入图像描述

这很好。我还得到以下 docx 文档:

在此处输入图像描述

这不好。

我将 docx 文件导出为 pdf 文件并得到以下输出:

在此处输入图像描述

请注意,我们在图像中看到的是整个页面,不可能滚动。第二列的日期根本不存在。有任何想法吗?


编辑 2

Pandoc 已安装在 conda 环境中:

Pandoc版本是:


编辑 3 我将 docx 文件转换为 txt:

我们可以看到所有数据都存在。所以我想这与信息的显示方式有关。

0 投票
0 回答
44 浏览

pypandoc - 使用 pypandoc 写入文件时出错

我正在尝试将运行 pypandoc 后得到的字符串写入文件。写入文件后,我得到了一堆 UnicodeEncodeError。我的问题是如何在没有任何编码的情况下写入文件。按原样写字符串?谢谢你。

我的字符串是:如果 G 的任何 1-自同构将 H 发送到自身,则组 G 的子群 H 被称为 1-AUTOMORPHISM-INVARIANT 子群。换句话说,对于 G 的每个 1-自同构 φ,φ(H) ⊆ H。

0 投票
0 回答
516 浏览

python - pypandoc | 转换多个文件

客观的:

我想用来Pypandoc创建一个用户输入三个参数的函数:(i)一个输入文件夹;(ii) 要转换成的文件格式;(iii) 输出文件夹。

问题:

在将其转换为循环以转换多个文件之前,我想让它与一个文件一起使用。代码从以下目录运行:

包含要转换的文件的目录是:

我要输出到的目录是:

这是我的代码,然后是我不断收到的错误消息:

错误信息:

0 投票
0 回答
325 浏览

python - Pandoc 转换字典

我正在尝试将 XML 文件转换为 MarkDown,但找不到转换 python dict 的示例。这是我的代码:

当我尝试运行它时,我得到:

RuntimeError:Pandoc 在转换期间因退出代码“1”而死

0 投票
2 回答
3056 浏览

pandoc - 从 pandoc LaTex 输出中删除 \hypertarget

我正在使用 pypandoc 将降价文件转换为 LaTex。我的降价文件有一个标题,例如:

当 pypandoc 将文件呈现为 .tex 文件时,它显示为:

虽然这是一个很好的功能,可以轻松链接回节标题,但我不一定想要这样,并且在这种情况下更希望 pypandoc 只生成:

是否有可用于关闭 \hypertarget{} 功能的 pandoc 设置或 pypandoc 设置?我已经查看了 pandoc 的文档,但在任何地方都没有看到它。

0 投票
0 回答
135 浏览

pandoc - 当链接包含完整路径文件时,pandoc 生成 InvalidUrlException

Pandoc 是将文件从一种格式转换为另一种格式的绝佳工具。在它提供的所有不同功能中,一个有趣的功能是生成自包含的可移植 HTML 文件。当您想与同事共享 HTML 文件时,此功能非常有用。但是,当链接包含完整路径文件时。例如,html 文件 original.html 包含以下 HTML 项:

当我pandoc original.html --self-contained -o transformed.html用来生成可移植的 HTML 文件时,会给出以下错误消息:

有任何想法吗?谢谢。

编辑: 我也尝试使用 pypandoc,

但同样的错误发生:

0 投票
0 回答
205 浏览

python - 使用 pypandoc 将 html 文件转换为 docx 文件时不保留编号列表

我正在尝试使用python 的pypandoc库将我的HTML文件转换为docx 。但是在将 HTML 文件转换为 docx 时,编号列表不会保留在 docx 文件中。

HTML 文件中的编号列表:

在此处输入图像描述

docx 文件中的编号列表:

在此处输入图像描述

这是我的代码:

还尝试使用:

我正在使用以下环境:

我也尝试使用以下版本的库:

请参阅附件以获得更多说明:

HTML 文件:Outline.html

生成的 Docx 文件:Outline.docx

有没有人有任何建议将 HTML 文件转换为使用 pypandoc 保留编号列表的 docx 文件?

谢谢你。

0 投票
2 回答
1495 浏览

python-3.x - Pypandoc 错误,RuntimeError:Pandoc 在转换过程中因退出代码“47”而死:未找到 b'pdflatex

第一次在这里发帖,顺便说一句,我对这行特定的 Python (3.6) 代码有疑问:

file_converted = pandoc.convert_file(PATH_TO_ODT, 'pdf', format="odt", outputfile=file_name + ".pdf", extra_args=['--pdf-engine=pdflatex'])

当我执行脚本(将 .odt 文件转换为 .pdf 文件)时,遇到以下错误:

RuntimeError: Pandoc died with exitcode "47" during conversion: b'pdflatex not found. Please select a different --pdf-engine or install pdflatex

基本上我知道我需要“pdflatex”,但是在我通过 pip 使用命令安装它之后

pip install pdflatex,执行产生相同的错误消息,我应该做什么或检查?谢谢你们。

0 投票
1 回答
392 浏览

python - 如何在python中将dotx文件转换为html文件?

这是我目前失败的代码

我正在尝试将 dotx 文件转换为 html 文件,但出现以下错误:

0 投票
1 回答
213 浏览

pandoc - pandoc:过滤器中的`RawBlock`

RawBlockPandoc过滤器中函数的正确用法是什么?