问题标签 [pypandoc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 Azure Function for Pypandoc 中安装 Pandoc
我正在使用包pypandoc将 DOC/DOCX 文件转换为 HTML。这是已经安装 Pandoc 的先决条件。当使用该文件安装两个软件包时requirements.txt
,它可以在本地工作。但是,当我将它部署为 Azure 函数时,它总是给出“找不到模块”错误。(pypandoc 无法在同一路径中找到 pandoc,因为它安装在其他位置。)
这似乎是一个已知问题。Pandoc 没有安装在与 Pyandoc 相同的路径中,并且建议了多种解决方案。但他们只在本地。
尝试的选项:
现在我正在使用 mammoth 进行转换,其准确性略低,但部署在 Az 上。如何让 Pypandoc 作为 Azure 函数工作?如何在 Pypandoc 可以找到的地方安装 Pandoc?或者,我如何告诉 Pypandoc 在哪里可以找到 Pandoc?
python - pypandoc html 到 md 表
我正在尝试使用 pypandoc 将 HTML 转换为 md markdown(与 Hugo 一起使用)。以下准系统表:
Markdown 中 pypandoc 的输出如下所示。经过 Hugo 服务器处理后,它不会转换为表格:
输出看起来就像 md 代码,只是全部粘在一起:
markdown - 如何在 Markdown 中包装原始 HTML 块
这是我从 pandoc 获得的示例降价代码:
降价文件将与 Hugo 一起使用,所以我需要用{{< rawhtml >}}
. 所以,我正在寻找的输出是:
我可以使用正则表达式来做到这一点。但是有没有更简单/更优雅的方式?也许 pandoc 过滤器?
html - 无法使用 pypandoc 将图像从 docx 文件添加到 html 文件
我正在尝试使用 python 中的 pypandoc 包将 docx 文件转换为 html 文件。这是我的代码(删除了文件路径) -
它不会插入 docx 文件中存在的图像,并且文本的颜色全部更改为黑白。我应该怎么做才能将所有图像放在 html 文件中并保持所有文本格式不变?
python - 使用带有 BytesIO 文件路径的 pypandoc 将 docx 转换为 pdf
我想从 azure blob 存储中获取 docx 文件,将其转换为 pdf 并再次将其保存到 azure blob 存储中。我想使用 pypandoc 将 docx 转换为 pdf。
但是,我想在 azure 函数中运行此代码,我将没有足够的空间来保存文件,因此我使用 BytesIO 作为流从 azure blob 存储下载文件,如下所示。
现在我想将我的 docx 文件转换stram
为 pdf 格式。转换后的 pdf 也可以保存为 BytesIO 流,因此可以将其上传到 blob 存储而不占用系统内存。但是 pypandoc 显示错误,RuntimeError: source_file is not a valid path
好像您可以建议一些其他方法将 docx 转换为可以处理 BytesIO 文件格式的 pdf,然后我想提一下,我将在 doc2pdf 等库不支持的 Linux 环境中工作。
python - RuntimeError:Pandoc 在转换过程中因退出代码“47”而死:找不到 pdflatex。请选择不同的 --pdf-engine 或安装 pdflatex`
我想将我的 word.docx
文件转换为pdf
使用 Python。
我已经安装了 pdflatex 和 pylatex 但我得到了错误-RuntimeError: Pandoc died with exitcode "47" during conversion: pdflatex not found. Please select a different --pdf-engine or install pdflatex
markdown - Markdownlint 可以禁止 html 属性,比如 onclick、onmouseover 吗?
我正在将 Madcap Flare 生成的 XHTML 文档转换为 markdown。有些表很复杂,表内有表,colspan 和rowspan 的多种用途。我将这些表从转换过程中搁置一旁(我在 python 中使用 pypandoc,这是 pandoc 的一个薄包装器)。
我想设置markdownlint.json
文件,以便它允许<table
>、<tr
>、<td>
... 标签,但禁止任何属性,如onclick
or onmouseover
。我找到了该"MD033": { "allowed_elements": ["table", "tr"] }
条目,但无法禁止或允许这些标签中的属性。
python - 即使提供了所有模块,AWS lambda 函数也会引发错误
我想将 .docx 文件转换为 .txt 并且如果 .docx 有表我想在 .txt 文件中以良好的方式维护它们,所以我为此目的使用 pypandoc。在我当地,这就像魅力一样。当我将其与所有依赖项一起压缩并将其放入 s3 以通过 aws lambda 运行时,它会失败并出现以下错误:
未找到 pandoc:安装 pandoc 并将其添加到您的 PATH 或调用 pypandoc.download_pandoc(...) 或安装包含 pandoc 的 pypandoc 轮子
我的代码是这样的:
任何帮助。提前升值