问题标签 [pypandoc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
173 浏览

python - 在 Azure Function for Pypandoc 中安装 Pandoc

我正在使用包pypandoc将 DOC/DOCX 文件转换为 HTML。这是已经安装 Pandoc 的先决条件。当使用该文件安装两个软件包时requirements.txt,它可以在本地工作。但是,当我将它部署为 Azure 函数时,它总是给出“找不到模块”错误。(pypandoc 无法在同一路径中找到 pandoc,因为它安装在其他位置。)

这似乎是一个已知问题。Pandoc 没有安装在与 Pyandoc 相同的路径中,并且建议了多种解决方案。但他们只在本地。

尝试的选项:

  1. 使用pandoc_download

  2. 使用 wdc。这不能解决问题。

  3. 使用包含 Pandoc 的轮文件。

现在我正在使用 mammoth 进行转换,其准确性略低,但部署在 Az 上。如何让 Pypandoc 作为 Azure 函数工作?如何在 Pypandoc 可以找到的地方安装 Pandoc?或者,我如何告诉 Pypandoc 在哪里可以找到 Pandoc?

0 投票
1 回答
32 浏览

python - pypandoc html 到 md 表

我正在尝试使用 pypandoc 将 HTML 转换为 md markdown(与 Hugo 一起使用)。以下准系统表:

Markdown 中 pypandoc 的输出如下所示。经过 Hugo 服务器处理后,它不会转换为表格:

输出看起来就像 md 代码,只是全部粘在一起:

0 投票
0 回答
63 浏览

markdown - 如何在 Markdown 中包装原始 HTML 块

这是我从 pandoc 获得的示例降价代码:

降价文件将与 Hugo 一起使用,所以我需要用{{< rawhtml >}}. 所以,我正在寻找的输出是:

我可以使用正则表达式来做到这一点。但是有没有更简单/更优雅的方式?也许 pandoc 过滤器?

0 投票
2 回答
62 浏览

html - 无法使用 pypandoc 将图像从 docx 文件添加到 html 文件

我正在尝试使用 python 中的 pypandoc 包将 docx 文件转换为 html 文件。这是我的代码(删除了文件路径) -

它不会插入 docx 文件中存在的图像,并且文本的颜色全部更改为黑白。我应该怎么做才能将所有图像放在 html 文件中并保持所有文本格式不变?

0 投票
0 回答
70 浏览

python - 使用带有 BytesIO 文件路径的 pypandoc 将 docx 转换为 pdf

我想从 azure blob 存储中获取 docx 文件,将其转换为 pdf 并再次将其保存到 azure blob 存储中。我想使用 pypandoc 将 docx 转换为 pdf。

但是,我想在 azure 函数中运行此代码,我将没有足够的空间来保存文件,因此我使用 BytesIO 作为流从 azure blob 存储下载文件,如下所示。

现在我想将我的 docx 文件转换stram为 pdf 格式。转换后的 pdf 也可以保存为 BytesIO 流,因此可以将其上传到 blob 存储而不占用系统内存。但是 pypandoc 显示错误,RuntimeError: source_file is not a valid path 好像您可以建议一些其他方法将 docx 转换为可以处理 BytesIO 文件格式的 pdf,然后我想提一下,我将在 doc2pdf 等库不支持的 Linux 环境中工作。

0 投票
0 回答
63 浏览

python - RuntimeError:Pandoc 在转换过程中因退出代码“47”而死:找不到 pdflatex。请选择不同的 --pdf-engine 或安装 pdflatex`

我想将我的 word.docx文件转换为pdf使用 Python。

我已经安装了 pdflatex 和 pylatex 但我得到了错误-RuntimeError: Pandoc died with exitcode "47" during conversion: pdflatex not found. Please select a different --pdf-engine or install pdflatex

0 投票
0 回答
22 浏览

markdown - Markdownlint 可以禁止 html 属性,比如 onclick、onmouseover 吗?

我正在将 Madcap Flare 生成的 XHTML 文档转换为 markdown。有些表很复杂,表内有表,colspan 和rowspan 的多种用途。我将这些表从转换过程中搁置一旁(我在 python 中使用 pypandoc,这是 pandoc 的一个薄包装器)。

我想设置markdownlint.json文件,以便它允许<table>、<tr>、<td>... 标签,但禁止任何属性,如onclickor onmouseover。我找到了该"MD033": { "allowed_elements": ["table", "tr"] }条目,但无法禁止或允许这些标签中的属性。

0 投票
0 回答
14 浏览

python - 即使提供了所有模块,AWS lambda 函数也会引发错误

我想将 .docx 文件转换为 .txt 并且如果 .docx 有表我想在 .txt 文件中以良好的方式维护它们,所以我为此目的使用 pypandoc。在我当地,这就像魅力一样。当我将其与所有依赖项一起压缩并将其放入 s3 以通过 aws lambda 运行时,它会失败并出现以下错误:

未找到 pandoc:安装 pandoc 并将其添加到您的 PATH 或调用 pypandoc.download_pandoc(...) 或安装包含 pandoc 的 pypandoc 轮子

我的代码是这样的:

任何帮助。提前升值