问题标签 [pypandoc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

38 问题

0 投票

1 回答

173 浏览

python - 在 Azure Function for Pypandoc 中安装 Pandoc

我正在使用包pypandoc将 DOC/DOCX 文件转换为 HTML。这是已经安装 Pandoc 的先决条件。当使用该文件安装两个软件包时requirements.txt，它可以在本地工作。但是，当我将它部署为 Azure 函数时，它总是给出“找不到模块”错误。（pypandoc 无法在同一路径中找到 pandoc，因为它安装在其他位置。）

这似乎是一个已知问题。Pandoc 没有安装在与 Pyandoc 相同的路径中，并且建议了多种解决方案。但他们只在本地。

尝试的选项：

使用pandoc_download
使用 wdc。这不能解决问题。
使用包含 Pandoc 的轮文件。

现在我正在使用 mammoth 进行转换，其准确性略低，但部署在 Az 上。如何让 Pypandoc 作为 Azure 函数工作？如何在 Pypandoc 可以找到的地方安装 Pandoc？或者，我如何告诉 Pypandoc 在哪里可以找到 Pandoc？

2021-01-22T20:38:07.543

0 投票

1 回答

32 浏览

python - pypandoc html 到 md 表

我正在尝试使用 pypandoc 将 HTML 转换为 md markdown（与 Hugo 一起使用）。以下准系统表：

Markdown 中 pypandoc 的输出如下所示。经过 Hugo 服务器处理后，它不会转换为表格：

输出看起来就像 md 代码，只是全部粘在一起：

python markdown hugo pypandoc

2021-08-03T16:18:23.260

0 投票

0 回答

63 浏览

markdown - 如何在 Markdown 中包装原始 HTML 块

这是我从 pandoc 获得的示例降价代码：

降价文件将与 Hugo 一起使用，所以我需要用{{< rawhtml >}}. 所以，我正在寻找的输出是：

我可以使用正则表达式来做到这一点。但是有没有更简单/更优雅的方式？也许 pandoc 过滤器？

markdown pandoc hugo hugo-shortcode pypandoc

2021-08-25T15:44:33.547

0 投票

2 回答

62 浏览

html - 无法使用 pypandoc 将图像从 docx 文件添加到 html 文件

我正在尝试使用 python 中的 pypandoc 包将 docx 文件转换为 html 文件。这是我的代码（删除了文件路径） -

它不会插入 docx 文件中存在的图像，并且文本的颜色全部更改为黑白。我应该怎么做才能将所有图像放在 html 文件中并保持所有文本格式不变？

html python-3.x docx pypandoc

2021-10-12T06:24:13.817

0 投票

0 回答

70 浏览

python - 使用带有 BytesIO 文件路径的 pypandoc 将 docx 转换为 pdf

我想从 azure blob 存储中获取 docx 文件，将其转换为 pdf 并再次将其保存到 azure blob 存储中。我想使用 pypandoc 将 docx 转换为 pdf。

但是，我想在 azure 函数中运行此代码，我将没有足够的空间来保存文件，因此我使用 BytesIO 作为流从 azure blob 存储下载文件，如下所示。

现在我想将我的 docx 文件转换stram为 pdf 格式。转换后的 pdf 也可以保存为 BytesIO 流，因此可以将其上传到 blob 存储而不占用系统内存。但是 pypandoc 显示错误，RuntimeError: source_file is not a valid path 好像您可以建议一些其他方法将 docx 转换为可以处理 BytesIO 文件格式的 pdf，然后我想提一下，我将在 doc2pdf 等库不支持的 Linux 环境中工作。

python pdf docx pandoc pypandoc

2021-11-12T11:00:51.133

0 投票

0 回答

63 浏览

python - RuntimeError：Pandoc 在转换过程中因退出代码“47”而死：找不到 pdflatex。请选择不同的 --pdf-engine 或安装 pdflatex`

我想将我的 word.docx文件转换为pdf使用 Python。

我已经安装了 pdflatex 和 pylatex 但我得到了错误-RuntimeError: Pandoc died with exitcode "47" during conversion: pdflatex not found. Please select a different --pdf-engine or install pdflatex

python python-3.x pandoc pdflatex pypandoc

2021-11-25T05:39:58.327

0 投票

0 回答

22 浏览

markdown - Markdownlint 可以禁止 html 属性，比如 onclick、onmouseover 吗？

我正在将 Madcap Flare 生成的 XHTML 文档转换为 markdown。有些表很复杂，表内有表，colspan 和rowspan 的多种用途。我将这些表从转换过程中搁置一旁（我在 python 中使用 pypandoc，这是 pandoc 的一个薄包装器）。

我想设置markdownlint.json文件，以便它允许<table>、<tr>、<td>... 标签，但禁止任何属性，如onclickor onmouseover。我找到了该"MD033": { "allowed_elements": ["table", "tr"] }条目，但无法禁止或允许这些标签中的属性。

markdown pandoc lint prettier pypandoc

2021-12-09T10:44:04.003

0 投票

0 回答

14 浏览

python - 即使提供了所有模块，AWS lambda 函数也会引发错误

我想将 .docx 文件转换为 .txt 并且如果 .docx 有表我想在 .txt 文件中以良好的方式维护它们，所以我为此目的使用 pypandoc。在我当地，这就像魅力一样。当我将其与所有依赖项一起压缩并将其放入 s3 以通过 aws lambda 运行时，它会失败并出现以下错误：

未找到 pandoc：安装 pandoc 并将其添加到您的 PATH 或调用 pypandoc.download_pandoc(...) 或安装包含 pandoc 的 pypandoc 轮子

我的代码是这样的：

任何帮助。提前升值

python aws-lambda pypandoc

2022-02-17T10:52:16.687

1 2 3 4 5 6 7 8 9 10

问题标签 [pypandoc]

Reference